飞起来：MySQL每秒57万的写入-低调大师

飞起来：MySQL每秒57万的写入

2018-11-29 775

一、需求

一个需求：从大数据平台收到一个数据写入在20亿+，需要快速地加载到MySQL中，供第二天业务展示使用。

二、实现再分析

对于单表20亿，在MySQL运维，说真的这块目前涉及得比较少，也基本没什么经验，但对于InnoDB单表Insert 如果内存大于数据情况下，可以维持在10万-15万行写入。但很多时间我们接受的项目还是数据超过内存的。这里使用XeLabs TokuDB做一个测试。

三、XeLabs TokuDB介绍

项目地址： https://github.com/XeLabs/tokudb

相对官方TokuDB的优化：

内置了jemalloc 内存分配
引入更多的内置的TokuDB性能指标
支持Xtrabackup备份
引入ZSTD压缩算法
支持TokuDB的binlog_group_commit特性

四、测试表

TokuDB核心配置：

loose_tokudb_cache_size=4G
loose_tokudb_directio=ON
loose_tokudb_fsync_log_period=1000
tokudb_commit_sync=0

表结构

CREATE TABLE `user_summary` (
 `user_id` bigint(20) unsigned NOT NULL COMMENT '用户id/手机号',
 `weight` varchar(5) DEFAULT NULL COMMENT '和码体重(KG)',
 `level` varchar(20) DEFAULT NULL COMMENT '重量级',
 `beat_rate` varchar(12) DEFAULT NULL COMMENT '击败率',
 `level_num` int(10) DEFAULT NULL COMMENT '同吨位人数',
 UNIQUE KEY `u_user_id` (`user_id`)
) ENGINE=TokuDB DEFAULT CHARSET=utf8

利用load data写入数据

root@localhost [zst]>LOAD DATA INFILE '/u01/work/134-136.txt' \
INTO TABLE user_summary(user_id, weight, level, beat_rate,level_num);
Query OK, 200000000 rows affected (5 min 48.30 sec)
Records: 200000000 Deleted: 0 Skipped: 0 Warnings: 0

计算一下每秒写入速度：

root@localhost [zst]>select 200000000/(5*60+48.30);
+------------------------+
| 200000000/(5*60+48.30) |
+------------------------+
| 574217.6285 |
+------------------------+
1 row in set (0.00 sec)

文件大小：

-rw-r--r-- 1 root root 8.5G 11月 25 20:05 134-136.txt
-rw-r----- 1 mysql mysql 8.6K 11月 25 20:44 user_summary.frm
-rw-r----- 1 mysql mysql 3.5G 11月 25 20:51 user_summary_main_229_1_1d_B_0.tokudb

实际文件8.5G，写入TokuDB大小3.5G，只是接近于一半多点的压缩量。对于20亿数据写入，实际测试在58分钟多点就可以完成。可以满足实际需求，另外对于磁盘IO比较好的机器（SSD类盘，云上的云盘），如果内存和数据差不多情况，这量级数据量测试在Innodb里需要添加自增列，可以在3个小多一点完成。从最佳实战上来看，Innodb和TokuDB都写入同样的数据，InnoDB需要花大概是TokuDB3-4倍时间。文件大小区别，同样20亿数据：

-rw-r----- 1 mysql mysql 35G 11月 25 23:29 user2_main_26a_1_1d_B_0.tokudb
-rw-r----- 1 mysql mysql 176G 11月 26 03:32 user5.ibd

文件大小在5倍大小的区别。

测试结论：

利用TokuDB在某云环境中8核8G内存，500G高速云盘环境，多次测试可以轻松实现57万每秒的写入量。

另外测试几种场景也供大家参考：如果在TokuDB中使用带自增的主键，主键无值让MySQL内部产生写入速度，下降比较明显，同样写入2亿数据，带有自建主键：

root@localhost [zst]>CREATE TABLE `user3` (
 -> `user_id` bigint(20) unsigned NOT NULL COMMENT '用户id/手机号',
 -> `weight` varchar(5) DEFAULT NULL COMMENT '和码体重(KG)',
 -> `level` varchar(20) DEFAULT NULL COMMENT '重量级',
 -> `beat_rate` varchar(12) DEFAULT NULL COMMENT '击败率',
 -> `level_num` int(10) DEFAULT NULL COMMENT '同吨位人数',
 -> `id` bigint(20) NOT NULL AUTO_INCREMENT,
 -> PRIMARY KEY (`id`),
 -> UNIQUE KEY `u_user_id` (`user_id`)
 -> ) ENGINE=TokuDB;
Query OK, 0 rows affected (0.03 sec)

root@localhost [zst]>LOAD DATA INFILE '/u01/work/134-136.txt' INTO TABLE user3(user_id, weight, level, beat_rate,level_num);
Query OK, 200000000 rows affected (22 min 43.62 sec)
Records: 200000000 Deleted: 0 Skipped: 0 Warnings: 0

同样的数据写入在主键自增无值产生时，不能使用TokuDB的 Bulk loader data特性，相当于转换为了单条的Insert实现，所以效果上慢太多。

关于TokuDB Bulk Loader前提要求，这个表是空表，对于自增列，如自增列有值的情况下，也可以使用。建议实际使用中，如果自增列有值的情况下，可以考虑去除自增属性，改成唯一索引，这样减少自增的一些处理逻辑，让TokuDB能跑地更快一点。另外在Bulk Loader处理中为了追求更快速的写入，压缩方面并不是很好。

关于TokuDB Bulk Loader :https://github.com/percona/PerconaFT/wiki/TokuFT-Bulk-Loader

五、测试环境说明

测试使用CentOS7环境，编译的XeLabs TokuDB版本百度云地址：https://pan.baidu.com/s/1qYRyH3I

本文作者：吴炳锡

本文链接：https://yq.aliyun.com/articles/278034?utm_content=m_36318#

微信关注我们

原文链接：https://blog.roncoo.com/article/131375

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

ELK采集之nginx 之高德地图出城市IP分布图

最近确实忙得像狗一样，很久没有更新博客了。今天有点空闲时间写一些相关的ELK stack的博客；本来想做成一些列，后面有时间的话再更新吧 1、采用拓扑：角色扮演： Agent:采用logstash，IP：192.168.10.7 Redis队列： IP：192.168.10.100 Indexer:logstash,IP：192.168.10.205 Es+kibana:放在192.168.10.100（大的日志环境可以单独存放）说明：下面是一台日志服务器下面nginx的日志格式 log_format backend '$http_x_forwarded_for [$time_local] ' '"$host" "$request" $status $body_bytes_sent ' '"$http_referer" "$http_user_agent"' 1、192.168.10.7上面agnet的配置： [luohui@BJ-huasuan-h-web-07 ~]$ cat /home/luohui/logstash-5.0.0/etc/logstash-nginx....

2018-11-29

848

在elasticsearch中es支持对存储文档进行复杂的统计.简称聚合。 ES中的聚合被分为两大类。 1、Metrics, Metrics 是简单的对过滤出来的数据集进行avg,max等操作，是一个单一的数值。 2、ucket, Bucket 你则可以理解为将过滤出来的数据集按条件分成多个小数据集，然后Metrics会分别作用在这些小数据集上。聚合在ELK里面是一个非常重要的概念，虽然我们在ELK stack里面用于过多的去了解es的实现过程，但是简单的了解es的查询过程，可以有效的帮助我们快速的入门Kibana，通过kibana鼠标点击的方式生成聚合数据。 1、 git先下载数据导入： git clone git@github.com:xiaoluoge11/longguo-devops.git 执行脚本： [root@controller longguo-devops]# ./car.sh #备注：我们会建立一个也许对汽车交易商有所用处的聚合。数据是关于汽车交易的：汽车型号，制造商，销售价格，销售时间以及一些其他的相关数据 Bucket...

2018-11-29

809

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。