每日一博 | 关系型数据库全表扫描分片详解-低调大师

每日一博 | 关系型数据库全表扫描分片详解

2019-08-09 820

导读：数据总线（DBus）专注于数据的实时采集与实时分发，可以对IT系统在业务流程中产生的数据进行汇聚，经过转换处理后成为统一JSON的数据格式（UMS），提供给不同数据使用方订阅和消费，充当数仓平台、大数据分析平台、实时报表和实时营销等业务的数据源。

在上一篇关于DBus的文章（DBus 数据库表结构变更处理方案）中，我们主要介绍了在DBus的设计中，表结构变更及其带来的各种问题是如何处理的。本文则是从数据分片的角度出发，具体介绍DBus在数据采集的过程中，运用了什么样的分片策略和分片原理，以及过程中遇到的问题及解决方案。

一、分片策略

对于传统的关系型数据库，DBus通过提供全量数据拉取和增量数据采集两种途径满足用户数据采集需求。DBus数据抽取流程如下图所示(以mysql为例)：

全量数据采集的主要原理是：根据主键、唯一索引、索引等信息，确定分片列。之所以分片列要根据主键、唯一索引、索引等选择，是因为这些列的数据在库里建立了良好索引，能提升数据扫描的效率。

根据选定的分片列，对数据进行拆片，确定每片数据的上下界，然后根据每片上下界，以6~8左右的并发度，进行数据拉取。（6~8左右的并发度是经大量测试获得的经验值。实验显示，6~8左右的并发度既不会对源库形成过高压力，又能最大限度提升全量数据拉取的效率。）

DBus分片策略示意图：

DBus拉取策略示意图：

那么，DBus支持什么类型的列作为分片列？不同类型的分片列，分片策略如何呢?

分片策略这块，DBus借鉴了Sqoop的分片设计，支持以下类型的列作为分片列：

BigDecimal/numeric
Boolean
Date/time/timestamp
Float/double
Integer/smallint/long
Char/Varchar/Text/NText

拆片原理大体一致，都是根据分片列的最大最小值，以及设定的每片大小，进行每一分片上下界的计算和确定。但具体实现细节差异很大。尤其是Text/NText类型，借鉴、应用的过程中发现一些问题，我们进行了一些调整和优化。

本文主要和大家分享一下遇到的坑和我们的解决办法。

二、分片原理

2.1 数字类型分片列

让我们先以最简单、明了的数字类型分片列为例介绍分片原理。

如前所述，我们会按照主键->唯一索引->索引的优先级确定分片列。如果表有主键，我们以主键列为分片列；如果没有主键，有唯一索引，我们以唯一索引列为分片列……以此类推。如果找到的键或索引是联合主键或联合索引，我取其中的第一列作为分片列。如果没有找到任何合适的列作为分片列，则不分片，所有数据作一片进行拉取（无法享受并发拉取带来的效率提升）。

首先要根据一定的规则选取某一列作为分片列，然后根据分片列的最大最小值，以及设定的每片大小，进行每一分片上下界的计算和确定：

1)获取切分字段的MIN()和MAX()

"SELECT MIN(" + qualifiedName + "),
MAX(" + qualifiedName + ") FROM (" + query + ") AS " + alias

2)根据MIN和MAX不同的类型采用不同的切分方式

支持有Date, Text, Float, Integer，Boolean, NText, BigDecimal等等。
以数字为例子：
步长=（最大值-最小值）/mapper个数
生成的区间为
[最小值，最小值+步长)
[最小值+步长，最小值+2*步长)
...
[最大值-步长，最大值]
生成的condition类似：
splitcol >= min and splitcol < min+splitsize

实现代码片段如下：

2.2 字符串类型分片列

对于分片列类型为数字类型的情况，很好理解。

如果分片列类型为char/varchar等字符串类型呢？每一片的上下界该如何计算？

原理还是一样的：查出该列的最小、最大值，根据每片大小，计算每片分界点，生成每一片的上下界。

技术细节上不一样的地方是：每片分界点/上下界的计算。

分片列类型为int，min 为2 ，max为10， shard size为3，分片很好理解：

Split[2,5)

Split[5,8)

Split[8,10]

如果分片列类型为varchar(128), min 为abc，max为 xyz，怎么计算拆片点呢？

Sqoop的分片机制是通过将“字符串”映射为“数字”，根据数字计算出分片上下界，然后将以数字表达的分片上下界映射回字符串，以此字符串作为分片的上/下界。如下所示：

字符串映射为数值（a/65536 + b/65536^2 + c/65536^3）
数值split 计算分割点，生成插值
插值映射回会字符串

然而，在实际应用中，上述分片机制碰到各种问题，下面将我们碰到和解决这一系列问题的经验分享如下。

三、分片经验

3.1 首先，根据上面的分片进行数据的拉取，有卡死情况。

1)现象

无错误输出，但全量抽取进程输出一部分分片后卡死，无任何输出
经过检查，发现30秒后， storm worker被莫名其妙重启了？

2)分析

nimbus.task.timeout.secs的缺省时间为30秒，nimbus发现worker无响应，就重启动worker
为什么worker无响应？
字符串的插值是任意可能的，例如：
splitcol >= ‘abc’ and splitcol < ‘fxxx’xx’

3)解决办法

使用binding变量方式，而不是拼接字符串方式
Select * from T splitcol >= ？and splitcol < ？

3.2 更新后碰到新问题，报Illegal mix of collations异常。

1)现象

显示exception：[ERROR] Illegal mix of collations (utf8_general -_ci,IMPLICIT) and (utf8mb4_general_ci,COERCIBLE) for operation '<'
java.sql.SQLException: Illegal mix of collations (utf8_general_ci,IMPLICIT) and (utf8mb4_general_ci,COERCIBLE) for operation '<‘

2)分析

什么是Utf8和utf8mb4？
utf8 是 Mysql 中的一种字符集，只支持最长三个字节的 UTF-8字符
三个字节的全部编码空间： 000000~ 00FFFF
MySQL在5.5.3之后增加了这个utf8mb4的编码，mb4就是most bytes 4的意思，专门用来兼容四字节的unicode
四个字节新增的编码空间：010000~10FFFF
似乎生成了utf8mb4的码的字符串， splitcol和生成的插值字符串，属于不同的字符集,无法进行比较，Splitcol属于utf8字符集，而插值属于utf8mb4字符集

3)检查发现

character_set_server：utf8mb4
character_set_database/table : utf8
Connection url: utf8 = utf8mb4

4)Unicode

代码空间：总共有1,114,112个代码点，编号从0x0到0x10FFFF
代码平面：Unicode分成了17个代码平面（Code Plane），编号为#0到#16。每个代码平面65,536个代码点

5)UTF16

从U+0000至U+FFFF基本多语言平面（BMP）
包含了最常用的字符
实际字符需要除去代理区，也就是从U+0000至U+D7FF 和 U+E000 至U+FFFF。
UTF8
从U+D800到U+DFFF的码位（代理区）
Unicode标准规定U+D800..U+DFFF的值不对应于任何字符

从U+10000到U+10FFFF的补充平面（Supplementary Planes）
在UTF-16中被编码为一对16比特长的码元（即32bit，4Bytes），称作 code units called a 代理对（surrogate pair）
第一个WORD的高6位是110110，第二个WORD的高6位是110111。可见，
第一个WORD的取值范围（二进制）是11011000 00000000到11011011 11111111，即0xD800-0xDBFF。
第二个WORD的取值范围（二进制）是11011100 00000000到11011111 11111111，即0xDC00-0xDFFF。
Emoji字符的例子：

对应Unicode 是\u1F601
对应的utf16 码是2个word，即：0xd83d,　0xde01，对应java string length为2.

根据上述字符集只是，我们找到了问题症结所在：

bigDecimalToString()生成的插值:
无法保证是否会落入U+D800到U+DFFF的代理区
无法保证连续两个word满足代理对的标准，可能会被认定为乱码
代理区间占整个U+FFFF区间很小

6)解决方案

回避生成在代理区的字符，用合法的BMP区字符替代
if (0xD800 <= codePoint && codePoint <= 0xDFFF) {
codePoint = 0xD3FF;
}
可能的缺点是：分片不那么均匀，但由于代理区占整个U+FFFF区间很小，影响不大

↓↓↓

3.3 拉取总数不对

解决字符集乱码问题后，能正常拉取数据，但总数不对。

1)现象

没有错误，全量抽取完成，但数量不对，整个表只有300万，实际抽取了500万？

2)分析

程序并没有错，存在重复数据
utf8_genera_ci不区分大小写，ci为case insensitive的缩写，即大小写不敏感
utf8_bin将字符串中的每一个字符用二进制数据存储，区分大小写
例如：SELECT * FROM table WHERE txt = 'a'
那么在utf8_bin中你就找不到 txt = 'A', 而 utf8_general_ci 则可以.

3)解决方案

应该使用utf8_bin进行查询

类似： SELECT * FROM tableName WHERE binary columnName = 'a';

至此，对char、varchar类型字符串分片列的分片，也有了很好的支持。

作者：尹宏春

来源：宜信技术学院

微信关注我们

原文链接：https://my.oschina.net/u/4007037/blog/3082507

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OSChina 周六乱弹 —— 泡面就要泡着吃……

Osc乱弹歌单（2019）请戳（这里）【今日歌曲】 @tom_tdhzz ：今晚人均卑微#今日歌曲推荐# 分享苟瀚中的单曲《墙角》: 《墙角》- 苟瀚中手机党少年们想听歌，请使劲儿戳（这里） @浙江埃里森 :来了老弟 @莫在全：台风来了，衣服都收好了嘛别担心了， “别担心家里了，有这个胖狗，台风吹不走我。” @罗马的王：东南沿海已经翻云覆雨，珠三角却是烈日炎炎饥渴难耐。大王（@罗马的王）知道这次台风怎么命名的么。 @夏目Jane ：这几天风大雨大要刮台风了，都不咋敢出门啦那怎么吃饭呀？吃泡面呗…… @orpherus ：中饭吃泡面了你这泡面不正宗啊， “泡面就要泡着吃……” 本来周日还想吃好吃的呢， @洛水：今天还是想吃小火锅，那么周末到底去不去呢…… 去……就去，记得别带着山东汉子和四川妹子去。出去吃饭前，记得喂主子， @应木无声：完了出门忘记喂主子了结果主子说了， “因为主子已经十二分钟没吃东西了。” 不止是下雨哟，温度还高呢 @罗马的王：今天高温橙色警报，有点担心家里的猫中暑了。不用担心， “小喵喵已经开始看空调说明书了……” 有空调的地方也...

2019-08-09

866

昨天华为在松山湖的华为开发者大会上正式宣布了鸿蒙操作系统，该系统其中一个亮点是 —— 微内核。华为声称，微内核的启用，使其速度大大提升，并且在安全性上产生变革性突破，微内核打破了宏内核下root即可获取用户所有权限的做法，在安全性上大大提升。什么是微内核呢？微内核结构由一个非常简单的硬件抽象层和一组比较关键的原语或系统调用组成；这些原语，仅仅包括了建立一个系统必需的几个部分；如线程管理，地址空间和进程间通信等。微核的目标是将系统服务的实现和系统的基本操作规则分离开来。例如，进程的输入/输出锁定服务可以由运行在微核之外的一个服务组件来提供。这些非常模块化的用户态服务器用于完成操作系统中比较高级的操作，这样的设计使内核中最内核的部分的设计更简单。一个服务组件的失效并不会导致整个系统的崩溃，内核需要做的，仅仅是重新启动这个组件，而不必影响其它的部分微内核将许多OS服务放入分离的进程，如文件系统，设备驱动程序，而进程通过消息传递调用OS服务.微内核结构必然是多线程的，第一代微内核，在内核提供了较多的服务，因此被称为'胖微内核'，它的典型代表是MACH，它既是GNU HURD也是APPL...

2019-08-10

738

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。