Spark 读取 Hbase 优化 --手动划分 region 提高并行数-低调大师

Spark 读取 Hbase 优化 --手动划分 region 提高并行数

2018-12-14 579

一. Hbase 的 region

我们先简单介绍下 Hbase 的架构和 region ：

从物理集群的角度看，Hbase 集群中，由一个 Hmaster 管理多个 HRegionServer，其中每个 HRegionServer 都对应一台物理机器，一台 HRegionServer 服务器上又可以有多个 Hregion（以下简称 region）。要读取一个数据的时候，首先要先找到存放这个数据的 region。而 Spark 在读取 Hbase 的时候，读取的 Rdd 会根据 Hbase 的 region 数量划分 stage。所以当 region 存储设置得比较大导致 region 比较少，而 spark 的 cpu core 又比较多的时候，就会出现无法充分利用 spark 集群所有 cpu core 的情况。

我们再从逻辑表结构的角度看看 Hbase 表和 region 的关系。

Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中，这些region会被分配到一个或者多个regionServer中。在自动split策略中，当一个region达到一定的大小就会自动split成两个region。
Region由一个或者多个Store组成，每个store保存一个columns family，每个Strore又由一个memStore和0至多个StoreFile 组成。memStore存储在内存中， StoreFile存储在HDFS上。
region是HBase中分布式存储和负载均衡的最小单元。不同Region分布到不同RegionServer上，但并不是存储的最小单元。

二. Spark 读取 Hbase 优化及 region 手动拆分

在用spark的时候，spark正是根据hbase有多少个region来划分stage。也就是说region划分得太少会导致spark读取时的并发度太低，浪费性能。但如果region数目太多就会造成读写性能下降，也会增加ZooKeeper的负担。所以设置每个region的大小就很关键了。

自0.94.0版本以来，split还有三种策略可以选择，不过一般使用默认的分区策略就可以满足需求，我们要修改的是会触发 region 分区的存储容量大小。

而在0.94.0版本中，默认的 region 大小为10G，就是说当存储的数据达到 10 G 的时候，就会触发 region 分区操作。有时候这个值可能太大，这时候就需要修改配置了。我们可以在 HBASE_HOME/conf/hbase-site.xml 文件中，增加如下配置：

<property> 
<name>hbase.hregion.max.filesize</name> 
<value>536870912</value>
</property>

其中的 value 值就是你要修改的触发 region 分区的大小，要注意这个值是以 bit 为单位的，这里是将region文件的大小改为512m。

修改之后我们就可以手动 split region了，手动分区会自动根据这个新的配置值大小，将 region 已经存储起来的数据进行再次进行拆分。

我们可以在 hbase shell 中使用 split 来进行操作，有以下几种方式可以进行手动拆分。

split ‘tableName’ 
split ‘namespace:tableName’ 
split ‘regionName’ # format: ‘tableName,startKey,id’ 
split ‘tableName’, ‘splitKey’ 
split ‘regionName’, ‘splitKey’

这里使用的是 split ‘namespace:tableName’ 这种方式。其中 tableName 自不必多说，就是要拆分的表名，namespace可以在hbase的web界面中查看，一般会是default。

使用命令之后稍等一会，hbase会根据新的region文件大小去split，最终结果可以在web-ui的"table Details"一栏，点击具体table查看。

以上~

微信关注我们

原文链接：https://yq.aliyun.com/articles/679574

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop 3.1.1伪分布式模式安装

Hadoop 3.1.1伪分布式模式安装更多资源 github: https://github.com/opensourceteams/hadoop-java-maven-3.1.1 视频 Hadoop 3.1.1伪分布式模式安装(bilibili视频) : https://www.bilibili.com/video/av38149957/ Hadoop 3.1.1伪分布式模式安装(youtube视频) : https://youtu.be/plVkuyJSNF8 前置条件 jdk.1.8.0_191 已安装 linux 系统(本文选用的centos 7 系统已完装好) 技能标签学会安装Hadoop3.1.1版本的伪分布式模式可以进行Hadoop技术开发(包括HDFS,MapReduce等) HDFS启动停止命令，yarn启动停止命令官网自带WorldCount示例运行进行管理界面管理NamenNode管理和ResourceManager管理对Hadoop集群环境操作(一台机器也可以做集群，只是节点只有一个，很多功能都可以操作) 安装步骤安装ssh 一般安装系统后都已自...

2018-12-13

734

什么是Temporal Table 在《Apache Flink 漫谈系列 - JOIN LATERAL》中提到了Temporal Table JOIN，本篇就向大家详细介绍什么是Temporal Table JOIN。在ANSI-SQL 2011中提出了Temporal 的概念，Oracle，SQLServer，DB2等大的数据库厂商也先后实现了这个标准。Temporal Table记录了历史上任何时间点所有的数据改动，Temporal Table的工作流程如下：上图示意Temporal Table具有普通table的特性，有具体独特的DDL/DML/QUERY语法，时间是其核心属性。历史意味着时间，意味着快照Snapshot。 ANSI-SQL 2011 Temporal Table示例我们以一个DDL和一套DML示例说明Tem

2018-12-14

1166

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。