生产环境使用HBase，你必须知道的最佳实践

2020-03-24 666

云栖号资讯：【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

前面，我们已经打下了很多关于HBase的理论基础，今天，我们主要聊聊在实际开发使用HBase中，需要关注的一些最佳实践经验。

Schema设计七大原则

1）每个region的大小应该控制在10G到50G之间；

2）一个表最好保持在 50到100个 region的规模；

3）每个cell最大不应该超过10MB，如果超过，应该有些考虑业务拆分，如果实在无法拆分，那就只能使用mob；

4）跟传统的关系型数据库不同，一个HBase的表中列族最多不超过3个，列族中的列可以动态添加的，不要设计过多列族；

5）列族名必须尽量短，因为我们知道在存储的时候，每个keyvalue都会包含列族名；

6）如果一个表存在一个以上的列族，那么必须要注意，不同列族之间行数相差不要太大。例如列族A有10万行，而列族B有1亿行，那么rowkey就有1亿行，而region是按照行键进行切分的，因此列族A可能会被打散为很多很多小region，这会导致在扫描列族A时会引发较多IO，效率低下。

7）列族可以设置TTL时间，HBase在超过设定时间后，会自动删除数据。

设置方法有两种：

建表时设置,TTL单位为秒，此例中列簇'f1'的数据保留1天（86400秒）

hbase(main):002:0>create 'table', {NAME => 'f1', TTL => 86400}

通过修改表设置

hbase(main):002:0>alter 'table', {NAME => 'f1', TTL => 86400}

这里需要注意，一旦超过设定时间后，该数据就无法读取了，但是，真正的过期数据删除，是发生在major compaction时。

.

RowKey设计三大策略

HBase作为一个分布式存储数据库，虽然扩容非常容易，但是，对于“热点”问题，还是非常头疼的。

所谓“热点”问题（HotSpotting），就是请求（读或者写）短时间内落在了集中的个别region上，导致了该region所在机器的负载急剧上升，超过了单点实例的承受能力，从而引起性能下降或者不可用。

要解决这个问题，就需要设计RowKey时，使得数据尽量往多个region上去写。

举个例子：

假如region按照26个字母分成26个，那么同时写入m开头的rowkey的记录都会同时写入同一个region

比如m001,m002,m003,m004,m005。

因此，RowKey的设计非常关键。常见的设计策略有这么几种。

1）salting

salting策略就是将生成随机数放在行键的开头作为前缀，使得每个行键有随机的字典序。

对上面的案例进行优化，我们采用了salting策略，插入前给每个rowkey生成一个随机的字母，变成了

am001,zm002,nm003,qm004,lm005

这样就能同时往5个region里面写入了，成功打散。

副作用：由于前缀生成是随机的，因此如果想要按照字典序查询这些行，则需要做更多的事情。从这个角度上看，salting增加了写操作的吞吐量，却也增大了读操作的开销。

2）Hashing

Hashing策略也是一种特殊的salting，是用一个单向的 hash 来取代随机指派前缀。

这样能使一个给定rowkey的行在“salted”时有相同的前缀，因此，这样既可以分散RegionServer间的负载的，同时也允许在读操作时能够预测这个前缀值是什么。确定性hash（ deterministic hash ）可以让客户端重建完整的行键，然后就可以像正常一样用Get方法查询确定的行。

3）reverse key

第三种预防hotspotting的方法是反转一段固定长度或者可数的键，让变化最多的某个位置放在rowkey的第一位，

副作用：对于Get操作没有影响，但是不利于Scan操作进行范围查询，因为数据在原RowKey上的顺序已经被打乱。

预分区

在 HBase核心特性—region split 中，我们知道已经提到过关于预分区。

主要原因是当一张表被首次创建时，只会分配一个region给这个表。因此，在刚刚开始时，所有读写请求都会落在这个region所在的region server上，而不管你整个集群有多少个region server。不能充分地利用集群的分布式特性。

因此，预分区主要也是解决“热点”问题。

最为常见的建表语句为：

create ‘tb’,{NAME => ‘f1’,COMPRESSION => ‘snappy’ }, { NUMREGIONS => 50, SPLITALGO => ‘HexStringSplit’ }

NUMREGIONS 为 region的个数，一般按照每个region 8-10GB左右来计算region数量，如果集群规模非常大，那么region数量可以适当取大一些

SPLITALGO 为 rowkey分割的算法，Hbase自带了三种pre-split的算法，分别是 HexStringSplit、DecimalStringSplit 和 UniformSplit。

各种Split算法适用场景：

HexStringSplit: rowkey是十六进制的字符串作为前缀的

DecimalStringSplit: rowkey是10进制数字字符串作为前缀的

UniformSplit: rowkey前缀完全随机

读性能优化

前面主要讲一些设计方面的优化点。
那如果在HBase的使用过程中，发现查询较慢，那么就需要根据具体情况，分析查询慢的原因，并采取相应的策略。

【云栖号在线课堂】每天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/zhibo

立即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-03-24
本文作者：阿丸笔记
本文来自：“CSDN云计算”，了解相关信息可以关注“CSDN云计算”

微信关注我们

原文链接：https://yq.aliyun.com/articles/751470

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【云栖号案例 | 新零售】ADB助力Flowerplus花加提速业务使订阅鲜花成为一种习惯

云栖号案例库：【点击查看更多上云案例】不知道怎么上云？看云栖号案例库，了解不同行业不同发展阶段的上云方案，助力你上云决策！公司介绍 Flowerplus花加是中国鲜花电商第一品牌，首创“日常鲜花订阅”模式，捕捉都市白领日常鲜花消费的市场空白，是一个颠覆了传统鲜花消费模式的创新品牌。自2015年创立之初就将战略眼光定位于“培育人们日常用花、赏花的消费习惯”。凭借对市场需求空白地带的成功捕捉和创新的“线上订阅+产地直送+增值服务”的商业模式，目前已成为中国鲜花电商领导品牌。截止目前，Flowerplus花加付费用户数过800万人，月发货量过200万件，单月销售额最高过亿，2016年销售3亿，2017年销售近8亿，2019年实现盈利千万，处于行业绝对领先位置。对比市场中不断强调“颠覆”的创业公司，花加在创业创新过程中的主要驱动力，是其不断去思考和探索“以用户价值为核心”的本质，并在此基础上给予还未被满足的用户需求、填补还需被完善的市场空隙。业务痛点花加业务主要业务是涉及和售卖鲜花产品，由于花加业务涉及实体采购以及物流，需要通过报表和BI来分析和支持库存情况、采购链路、物流进展、业务转...

2020-03-24

706

原文链接：https://blog.csdn.net/lsshlsw/article/details/103553289 博客主：breeze_lsw 01 SQL 支持 1.1 DML 背景 delta lake 0.4 只支持以 api 的方式使用 Delete/Update/Merge Into 等 DML，对习惯了使用 sql 的终端用户会增加其学习使用成本。解决方式下文通过 spark sql extension 以插件化的方式扩展 sql parser ，增加 DML 语法的支持。在 spark 推出 sql extension 功能前，也可以用通过 aspectj 通过拦截 sql 的方式实现增加自定义语法的功能。 1.在自定义扩展 g4 文件中相应的 antlr4 DML 语法，部分参考了 databricks 商业版的语法 st

2020-03-24

776

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

生产环境使用HBase，你必须知道的最佳实践

建表时设置,TTL单位为秒，此例中列簇'f1'的数据保留1天（86400秒）

通过修改表设置

【云栖号案例 | 新零售】ADB助力Flowerplus花加提速业务使订阅鲜花成为一种习惯

Delta Lake 平台化实践（离线篇)

相关文章

发表评论

资源下载

Mario

腾讯云软件源

Nacos

Sublime Text

欢迎您来访！

生产环境使用HBase，你必须知道的最佳实践

建表时设置,TTL单位为秒，此例中列簇'f1'的数据保留1天（86400秒）

通过修改表设置

【云栖号案例 | 新零售】ADB助力Flowerplus花加提速业务 使订阅鲜花成为一种习惯

Delta Lake 平台化实践（离线篇)

相关文章

发表评论

资源下载

Mario

腾讯云软件源

Nacos

Sublime Text

欢迎您来访！

【云栖号案例 | 新零售】ADB助力Flowerplus花加提速业务使订阅鲜花成为一种习惯