hbase的Region分裂代码分析-低调大师

hbase的Region分裂代码分析

2014-12-27 733

region分裂有2种触发情景：1是用户手动触发(参见HRegionServer的splitRegion方法)，2是后台flush线程flush完一个region的memstore时，会去检查这个region是否需要分裂(参见MemStoreFlushe的flushRegion方法)。这两种情景在代码实现上并无多大差异。

1.下面以手动的split为例分析，手动split有HregionServer的splitRegion开始

@Override//手动split的实现
public void splitRegion(HRegionInfo regionInfo, byte[] splitPoint)
throws NotServingRegionException, IOException {
checkOpen();
HRegion region = getRegion(regionInfo.getRegionName());
region.flushcache();//刷新memstore，减少内存堆积
region.forceSplit(splitPoint);//强制split
compactSplitThread.requestSplit(region, region.checkSplit());//通过compactSplitThread线程池完成split，具体由SplitRequest的run方法负责，SplitRequest内部会创建一个SplitTransaction来完成split
}

其中compactSplitThread.requestSplit(region, region.checkSplit())中region.checkSplit()会计算该region的分裂点,看代码

public byte[] checkSplit() {
// Can't split ROOT/META
//默认使用IncreasingToUpperBoundRegionSplitPolicy的分裂检查实现，有两种情况需要分裂：
// 1.splitRequest=true
// 2.check到该region下有store大于阀值，这个阀值和hbase.hregion.max.filesize和该region所在的RegionServer上和该Region属于同一表的region个数有关，具体见 getSizeToCheck方法。注意，如果该region下存在一个storefile是reference类型的文件则不能split
if (!splitPolicy.shouldSplit()) {
return null;
}
//判定该region是否分裂，如果有reference的storefile则不分裂，否则使用StoreFile.Reader得到最大的storefile，通过HFileBlockIndex得到该最大storefile的midkey TODO midkey的获得还需深入细看
byte[] ret = splitPolicy.getSplitPoint();
return ret;
}

2.接下来接着看SplitRequest的run方法主要部分

SplitTransaction st = new SplitTransaction(parent, midKey);
if (!st.prepare()) return; //再次判断有没有reference的region，创建两个新的region对象，代表分裂后产生的两个dautghter region
st.execute(this.server, this.server);

下面分析下SplitRequest的execute做了什么

public PairOfSameType<HRegion> execute(final Server server,
final RegionServerServices services)
throws IOException {
PairOfSameType<HRegion> regions = createDaughters(server, services);//在zk上创建一个ephemeral node，以防regionserver在分裂过程中down掉，Zookeeper临时路径是/hbase/region-in-transition/regionEncodedName，在parent region的hdfs下创建.splits文件夹，关闭当前待分裂region
openDaughters(server, services, regions.getFirst(), regions.getSecond());
transitionZKNode(server, services, regions.getFirst(), regions.getSecond());
return regions;
}

先分析 createDaughters

PairOfSameType<HRegion> createDaughters(final Server server,
final RegionServerServices services) throws IOException {
this.fileSplitTimeout = testing ? this.fileSplitTimeout :
server.getConfiguration().getLong("hbase.regionserver.fileSplitTimeout",
this.fileSplitTimeout);//split超时时间，默认30s
if (server != null && server.getZooKeeper() != null) {
try {
createNodeSplitting(server.getZooKeeper(),
this.parent.getRegionInfo(), server.getServerName());//在zk创建一个临时的节点，保存split状态为RS_ZK_REGION_SPLITTING，表示开始region分裂
} catch (KeeperException e) {
throw new IOException("Failed creating SPLITTING znode on " +
this.parent.getRegionNameAsString(), e);
}
}
createSplitDir(this.parent.getFilesystem(), this.splitdir); //在hdfs上为这个region的split过程创建临时工作目录/hbase/tableName/regionEncodedName/.splits
this.journal.add(JournalEntry.CREATE_SPLIT_DIR);
List<StoreFile> hstoreFilesToSplit = null;
Exception exceptionToThrow = null;
try{
hstoreFilesToSplit = this.parent.close(false); //关闭当前region，关闭前会等待region的flush和compact都完成(通过writestate同步实现)，还会判断memstore的size小于5m(默认)时，会preFlush,然后关闭该region,region停止读写
} catch (Exception e) {
exceptionToThrow = e;
}
if (!testing) {
services.removeFromOnlineRegions(this.parent.getRegionInfo().getEncodedName()); //从regionserver的online服务中移除
}
this.journal.add(JournalEntry.OFFLINED_PARENT);
splitStoreFiles(this.splitdir, hstoreFilesToSplit);//通过创建与该region下storefile个数相同的线程池子进行并行分裂,见StoreFileSplitter的splitStoreFile方法,其核心走StoreFile.split方法
this.journal.add(JournalEntry.STARTED_REGION_A_CREATION);
HRegion a = createDaughterRegion(this.hri_a, this.parent.rsServices); //region读写数为父region的一半
this.journal.add(JournalEntry.STARTED_REGION_B_CREATION);
HRegion b = createDaughterRegion(this.hri_b, this.parent.rsServices);
if (!testing) {
//在.META.表中下线split的region，修改.META.表的该region信息，把offline split设置为true，添加列：splitA和splitB
MetaEditor.offlineParentInMeta(server.getCatalogTracker(), this.parent.getRegionInfo(), a.getRegionInfo(), b.getRegionInfo());
}
｝

StoreFile的split方法

static Path split(final FileSystem fs, final Path splitDir, final StoreFile f, final byte [] splitRow, final Reference.Range range)
throws IOException {
// 检查split的key是否在storefile中
if (range == Reference.Range.bottom) {
//check if smaller than first key
KeyValue splitKey = KeyValue.createLastOnRow(splitRow);
byte[] firstKey = f.createReader().getFirstKey();
// If firstKey is null means storefile is empty.
if (firstKey == null) return null;
if (f.getReader().getComparator().compare(splitKey.getBuffer(),
splitKey.getKeyOffset(), splitKey.getKeyLength(),
firstKey, 0, firstKey.length) < 0) {
return null;
}
}
else {
//check if larger than last key.
KeyValue splitKey = KeyValue.createFirstOnRow(splitRow);
byte[] lastKey = f.createReader().getLastKey();
// If lastKey is null means storefile is empty.
if (lastKey == null) return null;
if (f.getReader().getComparator().compare(splitKey.getBuffer(),
splitKey.getKeyOffset(), splitKey.getKeyLength(),
lastKey, 0, lastKey.length) > 0) {
return null;
}
}
/*生成类型为reference的storefile文件,比如encode name为a，column family为cf(该cf下有名为hfile的storefile)的region分裂后会形成名为b和c的引用文件，此时在hdfs中该region下的目录结构为
/hbase/tableName/a/cf/hfile
/hbase/tableName/b/.splits/cf/hfile.a
/hbase/tableName/c/.splits/cf/hfile.a
这两个引用文件的storefile的内容由原storefile的中间rowkey和range组成，reference文件的个数与原split region的storefile文件个数相同
*/
Reference r = new Reference(splitRow, range);
String parentRegionName = f.getPath().getParent().getParent().getName();
Path p = new Path(splitDir, f.getPath().getName() + "." + parentRegionName);
return r.write(fs, p);
}

再来看一下openDaughters

void openDaughters(final Server server,
final RegionServerServices services, HRegion a, HRegion b)
throws IOException {
//并行打开两个daughters
DaughterOpener aOpener = new DaughterOpener(server, a);
DaughterOpener bOpener = new DaughterOpener(server, b);
aOpener.start();
bOpener.start();
if (services != null) {
try {
services.postOpenDeployTasks(b, server.getCatalogTracker(), true); // compact有references的storefile，compact操作最终清理掉这些reference文件，并把实际文件的内容写到region中去。将regioninfo信息和location的位置信息put到.META.表中
services.addToOnlineRegions(b); //添加region对象到regionserver的online列表中，终于可以对外提供服务了
services.postOpenDeployTasks(a, server.getCatalogTracker(), true);
services.addToOnlineRegions(a);
} catch (KeeperException ke) {
throw new IOException(ke);
}
}
}

最后梳理下整个流程：

检查该region是否需要分裂，如果满足分裂条件，则通过region.checkSplit()拿到midkey，并把该分裂请求SplitRequest提交给后台的CompactSplitThread线程池去执行，SplitRequest内部会创建SplitTransaction来实现分裂，其过程如下：

* 根据该region和midkey创建两个新的region对象HRegionInfo，代表分裂后的两个dautghter region

* 在zk上创建一个临时节点(名称为“/hbase/region-in-transition/region-name”的znode)，以防regionserver在分裂过程中down掉，保存split状态为RS_ZK_REGION_SPLITTING，表示开始region分裂。同时因为master一直watch znode(/hbase/region-in-transition),所以master会知道这个region的变化，以防master对其进行move等操作

* 在该region所在的hdfs路径下创建.splits文件夹

* 关闭该region，关闭前会等待region的flush和compact都完成(通过writestate同步实现)，还会判断如果memstore的size小于5m(默认)时，会preFlush,然后关闭该region,region停止读写,并从regionserver的online服务中移除

* 通过创建与该region下storefile个数相同的线程池子进行storefile的并行分裂,见StoreFileSplitter的splitStoreFile方法,其核心走StoreFile.split方法，其生成类型为reference的storefile文件,比如encode name为a，column family为cf(该cf下有名为hfile的storefile)的region分裂后会形成名为b和c的引用文件，此时在hdfs中该region下的目录结构为

/hbase/tableName/a/cf/hfile
/hbase/tableName/b/.splits/cf/hfile.a
/hbase/tableName/c/.splits/cf/hfile.a
这两个引用文件的storefile的内容由原storefile的中间rowkey和range组成，reference文件的个数与原split region的storefile文件个数相同

* 在.META.表中下线split的region，修改.META.表的该region信息，把offline split设置为true，添加列：splitA和splitB

* 并行打开两个daughters region，CompactSplitThread后台线程会compact有references的storefile，compact操作最终清理掉这些reference文件，把实际文件的内容写到daughters region中去。并将daughter region的regioninfo信息和location的位置信息put到.META.表中

* 添加region对象到regionserver的online列表中，终于可以对外提供服务了

转载请注明出处：http://blog.csdn.net/odailidong/article/details/42217439

参考文章：

http://blog.csdn.net/c77_cn/article/details/38758545

http://www.cnblogs.com/foxmailed/p/3970050.html

微信关注我们

原文链接：https://yq.aliyun.com/articles/238516

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

会飞的猪（Pig）

版权声明：本文为半吊子子全栈工匠（wireless_com，同公众号)原创文章，未经允许不得转载。 https://blog.csdn.net/wireless_com/article/details/42060379 猪会飞么? 提高pig的性能,让猪飞起来有如下办法：1.尽早地并经常地进行过滤2.尽早地并经常地进行映射3.正确并合理地使用Join4.选择正确的数据类型，合适的并行值5.调整pig 的性能属性：pig.cachedbag.menusage 和pig.skewedjoin.reduce.memusage6.对中间结果进行压缩 Describe 命令会显示脚本中指定关系的模式。explain 可以深入到pig内部看如何将用户的脚本编译成MapReduce任务的。 illustrate 对用户的数据进行抽样并且对抽样的数据执行用户的脚本。在提交的hadoop集群执行之前，pig需要消耗几秒钟来解析脚本，这些M/R任务真正运行时才会显示在JobTracker页面上。 PigUnit提供了一个集成到JUnit中的单元测试框架，在0.8版本引入的。 Hadoop降低了IO约束但...

2014-12-20

763

1.概要我打算分享一下，我开发Hadoop的一些心得，对于即将步入Hadoop行业的童鞋，希望我整理的这些博文对您有帮助，我打算分为以下几部分来描述。 2.步骤注：点击链接可直接跳到指定位置 Hadoop社区版集群的搭建 hive的安装部署 sqoop的安装部署 hbase和zookeeper的安装和部署网站日志统计案例分析与实现 hive优化笔记红色部分已编写完成，并已发布，后面的部分目前正在整理资料中。联系方式：邮箱：smartloli.org@gmail.com Twitter： https://twitter.com/smartloli QQ群（Hadoop - 交流社区1）： 424769183 温馨提示：请大家加群的时候写上加群理由（姓名＋公司/学校），方便管理员审核，谢谢！热爱生活，享受编程，与君共勉！作者：哥不是小萝莉［关于我］［犒赏］出处：http://www.cnblogs.com/smartloli/ 转载请注明出处，谢谢合作！

2014-12-29

808

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。