hbase优化实践

2017-05-08 757

hbase优化

一：垃圾回收优化：

region服务器处理过大的负载，内存分配策略无法安全地只依赖JRE对程序的行为的各种假设，需要使用JRE提供的选项调整垃圾回收策略应对。

写入磁盘的数据客户端不连续，导致Java虚拟机堆内存出现空洞。

年轻代空间：128~512M之间老生代：好几G。

配置文件添加：

hbase-env.sh：

HBASEOPTS或者HBASEREGIONSERVER_OPT(推荐) 推荐配置：

exportHBASE_REGIONOBSERVER_OPTS="

-Xmx8g \

-Xms8g \

-Xmn128m\

-XX:+UseParNewGC\

-XX:+UseConcMarkSweepGC \

-XX:CMSInitiatingOccupancyFraction=70 \

-verbose:gc \

-XX:+PrintGCDetails\

-XX:+PrintGCTimeStamps \

-Xloggc:$HBASE_HOME/logs/gc-${HOSTNAME}-hbase.log"

参照：

http://blog.csdn.net/kthq/article/details/8618052

http://swcdxd.iteye.com/blog/1859858

二：hbase压缩

可用编码器：GZIP/LZO/Snappy

Snappy性能稍好，多使用Snappy

hbase启动检查压缩：

hbase.regionserver.codecs

snappy,lzo

启用压缩：

hbase> create 'test2', { NAME => 'cf2', COMPRESSION => 'SNAPPY' }

hbase> describe 'test'

DESCRIPTION ENABLED

'test', {NAME => 'cf', DATA_BLOCK_ENCODING => 'NONE false

', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0',

VERSIONS => '1', COMPRESSION => 'GZ', MIN_VERSIONS

=> '0', TTL => 'FOREVER', KEEP_DELETED_CELLS => 'fa

lse', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}

1 row(s) in 0.1070 seconds

或者：hbase> disable 'test'

hbase> alter 'test', {NAME => 'cf', COMPRESSION => 'GZ'}

hbase> enable 'test'

三：优化拆分与合并

3.1管理拆分

hbase可能出现‘拆分/合并风暴’

关闭自动管理拆分，启用手动

To disable automatic splitting, set hbase.hregion.max.filesize to a very large value,

such as 100 GB It is not recommended to set it to its absolute maximum value of Long.MAX_VALUE.

3.2 region热点问题

/rowkey的设计一：salting前缀设计/

byte prefix = (byte) (Long.hashCode(System.currentTimeMillis()) % 8);

byte[] rowkey1 = Bytes.add(Bytes.toBytes(prefix), Bytes.toBytes(System.currentTimeMillis()));

/rowkey的设计二：字段交换，提升权重/

value + System.currentTimeMillis();

/rowkey的设计三：随机化/

MessageDigest md = MessageDigest.getInstance("MD5");

byte[] rowkey3 = md.digest(Bytes.toBytes(System.currentTimeMillis()));

/rowkey的设计四：时间顺序/

long rowkey4 = Long.MAX_VALUE - System.currentTimeMillis();

还可以使用API中move（）region移动到另一个regionserver；或者UNassign移除受影响的表的region

3.3预拆分region

创建表指定需要的region数目

hbase>create 't1','f',SPLITS => ['10','20',30']

hbase>create 't14','f',SPLITS_FILE=>'splits.txt'

# create table with four regions based on random bytes keys

hbase>create 't2','f1', { NUMREGIONS => 4 , SPLITALGO => 'UniformSplit' }

# create table with five regions based on hex keys

hbase>create 't3','f1', { NUMREGIONS => 5, SPLITALGO => 'HexStringSplit' }

参考：http://hbase.apache.org/book.html#compression

四：负载均衡：

Use the shell to disable the balancer:

hbase(main):001:0> balance_switch false

true

0 row(s) in 0.3590 seconds

This turns the balancer OFF. To reenable, do:

hbase(main):001:0> balance_switch true

false

0 row(s) in 0.3590 seconds

五：合并region：

某些特出情况下，用户需要合并region（删除了大量数据）

$ bin/hbase org.apache.hadoop.hbase.util.Merge

（If you feel you have too many regions and want to consolidate them, Merge is the utility you need.

Merge must run be done when the cluster is down）

六：客户端api优化：

6.1禁止自动刷写

有大量的写入操作

When performing a lot of Puts, make sure that setAutoFlush is set to false on your Table instance.

Otherwise, the Puts will be sent one at a time to the RegionServer.

Puts added via table.add(Put) and table.add( Put) wind up in the same write buffer.

If autoFlush = false, these messages are not sent until the write-buffer is filled.

To explicitly flush the messages, call flushCommits.

Calling close on the Table instance will invoke flushCommits.

6.2使用扫描缓存

比如：hbase作为mapreduce输入源。

设置setCaching比默认值大多的值。

If HBase is used as an input source for a MapReduce job,

for example, make sure that the input Scan instance to the MapReduce job has setCaching set to something greater than the default (which is 1).

Using the default value means that the map-task will make call back to the region-server for every record processed.

Setting this value to 500, for example, will transfer 500 rows at a time to the client to be processed

6.3限定扫描范围

6.4关闭resultScanner

七：配置优化；

7.1减少zookeeper超时

zookeeper.session.timeout

默认三分钟

7.2增加regionserver处理线程

hbase.regionserver.handler.count

默认10

7.3增加region大小

管理较少的region可以集群运行更平稳

默认256M

7.4减少最大日志文件数目

对于写压力比较大的应用，降低值强迫服务器频繁将数据写到磁盘，刷写到磁盘的数据的日志就可以丢弃了。

7.5启用数据压缩

微信关注我们

原文链接：https://yq.aliyun.com/articles/556198

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

E-MapReduce集群中HDFS服务集成Kerberos

本文介绍在E-MapReduce集群中HDFS服务集成Kerberos。前置: 创建E-MapReduce集群，本文以非HA集群的HDFS为例 HDFS服务在hdfs账号下启动 HDFS软件包路径/usr/lib/hadoop-current，配置在/etc/emr/hadoop-conf/ 一、安装配置Kerberos 1. 安装Kerberos master节点执行: sudo yum install krb5-server krb5-devel krb5-workstation -y slave节点执行: sudo yum install krb5-devel krb5-workstation -y 2. 配置Kerberos master节点上面修改配置：a) /etc/krb5.conf 备注：配置中emr-header-1.clu

2017-05-08

697

总论：大数据计算服务 ( MaxCompute，原名 ODPS ) 是一种快速、完全托管的 TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。同时，大数据开发套件和 MaxCompute关系紧密，大数据开发套件为 MaxCompute 提供了一站式的数据同步，任务开发，数据工作流开发，数据管理和数据运维等功能，您可以参见大数据开发套件简介来对其进行深入了解。 MaxCompute 主要服务于批量结构化数据的存储和计算，可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。随着社会数据收集手段的不断丰富及完善，越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的

2017-05-08

776

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

hbase优化实践

hbase优化

一：垃圾回收优化：

二：hbase压缩

三：优化拆分与合并

3.1管理拆分

3.2 region热点问题

3.3预拆分region

四：负载均衡：

五：合并region：

六：客户端api优化：

6.1禁止自动刷写

6.2使用扫描缓存

6.3限定扫描范围

6.4关闭resultScanner

七：配置优化；

7.1减少zookeeper超时

7.2增加regionserver处理线程

7.3增加region大小

7.4减少最大日志文件数目

7.5启用数据压缩

E-MapReduce集群中HDFS服务集成Kerberos

MaxCompute基础与MaxCompute SQL优化

相关文章

发表评论

资源下载

Nacos

Spring

Rocky Linux

WebStorm

欢迎您来访！

hbase优化实践

hbase优化

一：垃圾回收优化 ：

二：hbase压缩

三：优化拆分与合并

3.1管理拆分

3.2 region热点问题

3.3预拆分region

四：负载均衡：

五：合并region：

六：客户端api优化：

6.1禁止自动刷写

6.2使用扫描缓存

6.3限定扫描范围

6.4关闭resultScanner

七：配置优化；

7.1减少zookeeper超时

7.2增加regionserver处理线程

7.3增加region大小

7.4减少最大日志文件数目

7.5启用数据压缩

E-MapReduce集群中HDFS服务集成Kerberos

MaxCompute基础与MaxCompute SQL优化

相关文章

发表评论

资源下载

Nacos

Spring

Rocky Linux

WebStorm

欢迎您来访！

一：垃圾回收优化：