大白话彻底搞懂 HBase RowKey 详细设计-低调大师

大白话彻底搞懂 HBase RowKey 详细设计

2020-06-11 889

云栖号资讯：【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

前言

RowKey作为HBase的核心知识点，RowKey设计会影响到数据在HBase中的分布，还会影响我们查询效率，所以RowKey的设计质量决定了HBase的质量。是咱们大数据从业者必知必会的，自然也是面试必问的考察点。

那么rowkey到底是什么呢？原理是什么呢？怎么设计RowKey呢？使用场景是怎样的呢？有哪些设计原则呢？又如何进行优化呢？

下面就让我们带着这些问题，一起探索RowKey的世界！

RowKey的概念

RowKey从字面意思来看是行键的意思，咱们知道HBase可以理解为一个nosql（not only sql）数据库，既然是数据库，那么咱们日常使用最多的就是增删改查（curd）。其实在增删改查的过程中RowKey就充当了主键的作用，它和众多的nosql数据库一样，可以唯一的标识一行记录。

RowKey行键 (RowKey)可以是任意字符串，在HBase内部，RowKey保存为字节数组。存储时，数据按照RowKey的字典序(byte order)排序存储。设计RowKey时，要充分利用排序存储这个特性，将经常一起读取的行存储放到一起。

RowKey的特点小结如下：

RowKey类似于主键，可以唯一的标识一行记录；

由于数据按照RowKey的字典序(byte order)排序存储，因此HBase中的数据永远都是有序的。

RowKey可以由用户自己指定，只要保证这个字符串不重复就可以了。

知识点补充：在HBase中检索数据时使用到RowKey的一共有三种方式：

get：通过指定单个RowKey来获取对应的唯一一条记录；

like：通过RowKey的range来进行匹配；

scan：通过设置startRow和stopRow参数来进行范围匹配（注意：如果不设置就是全表扫描）。

RowKey的作用

要了解RowKey的作用，首先我们需要知道在HBase中，一个Region就相当于一个数据分片，每个Region都有StartRowKey和StopRowKey（用来表示 Region存储的RowKey的范围），HBase表里面的数据是按照RowKey来分散存储到不同的Region里面的。

为了避免热点现象咱们需要将数据记录均衡的分散到不同的Region中去，因此需要RowKey满足这种散列的特点。此外，在数据读写过程中也是与RowKey密切相关的。RowKey的作用可以归纳如下：

Hbase在读写数据时需要通过RowKey找到对应的Region；

MemStore和HFile中的数据都是按照 RowKey 的字典序排序。

那到底啥是热点现象呢？咱们接着分析！

热点现象

4.1、热点现象怎么产生

我们知道HBase中的行是按照rowkey的字典顺序排序的，这种设计优化了 scan操作，可以将相关的行以及会被一起读取的行存取在临近位置，便于 scan读取。

然而万事万物都有两面性，在咱们实际生产中，当大量请求访问HBase集群的一个或少数几个节点，造成少数RegionServer的读写请求过多，负载过大，而其他RegionServer负载却很小，这样就造成热点现象（吐槽：其实和数据倾斜类似，还整这么高大上的名字）。

掌握了热点现象的概念，我们就应该知道大量的访问会使热点Region所在的主机负载过大，引起性能下降，甚至导致Region不可用。所以我们在向HBase中插入数据的时候，应优化RowKey的设计，使数据被写入集群的多个region，而不是一个。尽量均衡地把记录分散到不同的Region中去，平衡每个Region的压力。

其实RowKey的优化主要就是在解决怎么避免热点现象。那么有哪些避免热点现象的方法呢？各有什么缺点？带着问题，接着往下看。

4.2、如何避免热点现象（RowKey的优化）

在日常使用中，主要有3个方法来避免热点现象，分别是反转，加盐和哈希。听起来很奇怪，下面咱们逐个举例详细分析：

4.2.1 反转（Reversing）

第一种咱们要分析的方法是反转，顾名思义它就是把固定长度或者数字格式的 rowkey进行反转，反转分为一般数据反转和时间戳反转，其中以时间戳反转较常见。

适用场景：

比如咱们初步设计出的RowKey在数据分布上不均匀，但RowKey尾部的数据却呈现出了良好的随机性（注意：随机性强代表经常改变，没意义，但分布较好），此时，可以考虑将RowKey的信息翻转，或者直接将尾部的bytes提前到RowKey的开头。反转可以有效的使RowKey随机分布，但是反转后有序性肯定就得不到保障了，因此它牺牲了RowKey的有序性。

缺点：

利于Get操作，但不利于Scan操作，因为数据在原RowKey上的自然顺序已经被打乱。

举例：

比如咱们通常会有需要快速获取数据的最近版本的数据处理需求，这时候就需要把时间戳作为RowKey来查询了，但是时间戳正常情况下是这样的：

前面这部分是相同的，在查询的时候就容易造成热点现象，因此需要使用时间戳反转的方式来处理。实际生产中可以用 Long.Max_Value - timestamp 追加到 key 的末尾，比如 key, [key] 的最新值可以通过 scan [key]获得[key]的第一条记录，因为HBase中RowKey是有序的，所以第一条记录是最后录入的数据。

常见的场景，比如需要保存一个用户的操作记录，就可以按照操作时间倒序排序，在设计rowkey的时候，可以这样设计反转后的userId，在查询用户的所有操作记录数据的时候，直接指定反转后的userId，startRow 是反转后的userId，stopRow 是反转后的userId。如果需要查询某段时间的操作记录，startRow 是[反转后的userId[Long.Max_Value - 起始时间]， stopRow 是反转后的userId。

4.2.2 加盐（Salting）

第二种咱们要介绍的方法是加盐，玩过密码学的可能知道密码学里也有加盐的方法，但是咱们RowKey的加盐和密码学不一样，它的原理是在原RowKey的前面添加固定长度的随机数，也就是给RowKey分配一个随机前缀使它和之前的RowKey的开头不同。

适用场景：

比如咱们设计的RowKey是有意义的，但是数据类似，随机性比较低，反转也没法保证随机性，这样就没法根据RowKey分配到不同的Region里，这时候就可以使用加盐的方式了。

需要注意随机数要能保障数据在所有Regions间的负载均衡，也就是说分配的随机前缀的种类数量应该和你想把数据分散到的那些region的数量一致。只有这样，加盐之后的rowkey才会根据随机生成的前缀分散到各个region中，避免了热点现象。

缺点：

大白话来理解就是加了盐就尝不到原有的味道了。因为添加的是随机数，添加后如果还基于原RowKey查询，就无法知道随机数是什么，那样在查询的时候就需要去各个可能的Region中查找，同时加盐对于读取是利空的。并且加盐这种方式增加了读写时的吞吐量。

4.2.3 哈希（Hashing）

最后介绍大家最熟悉的哈希方法，不管是学的啥技术，都会涉及到哈希，也都大同小异，比较简单。

这里的哈希是基于RowKey的完整或部分数据进行Hash，而后将哈希后的值完整替换或部分替换原RowKey的前缀部分。这里说的hash常用的有MD5、sha1、sha256 或 sha512 等算法。

适用场景：

其实哈希和加盐的适用场景类似，但是由于加盐方法的前缀是随机数，用原rowkey查询时不方便，因此出现了哈希方法，由于哈希是使用各种常见的算法来计算出的前缀，因此哈希既可以使负载分散到整个集群，又可以轻松读取数据。

缺点：

与反转类似，哈希也打乱了RowKey的自然顺序，因此也不利于Scan。

RowKey设计原则

通过前面的分析我们应该知道了HBase中RowKey设计的重要性了，为了帮助我们设计出完美的RowKey，HBase提出了RowKey的设计原则，一共有四点：长度原则、唯一原则、排序原则，散列原则。

RowKey在字段的选择上，需要遵循的最基本原则是唯一原则，因为RowKey必须能够唯一的识别一行数据。无论应用的负载特点是什么样，RowKey字段都应该首先考虑最高频的查询场景。数据库通常都是以如何高效的读取和消费数据为目的，而不仅仅是数据存储本身。然后再结合具体的负载特点，再对选取的RowKey字段值进行改造，结合RowKey的优化，也就是避免热点现象的那些方法来优化就可以了。

5.1 长度原则

RowKey本质上是一个二进制码的流，可以是任意字符串，最大长度为64kb，实际应用中一般为10-100byte，以byte[]数组形式保存，一般设计成定长。官方建议越短越好，不要超过16个字节，原因可以概括为如下几点：

影响HFile的存储效率：HBase里的数据在持久化文件HFile中其实是按照Key-Value对形式存储的。这时候如果RowKey很长，比如达到了200byte，那么仅仅1000w行的记录，只考虑RowKey就需占用近2GB的空间，极大的影响了HFile的存储效率。

降低检索效率：由于MemStore会缓存部分数据到内存中，如果RowKey比较长，就会导致内存的有效利用率降低，也就不能缓存更多的数据，从而降低检索效率。

16字节是64位操作系统的最佳选择：64位系统，内存8字节对齐，控制在16字节，8字节的整数倍利用了操作系统的最佳特性。

5.2 唯一原则

其实唯一原则咱们可以结合HashMap的源码设计或者主键的概念来理解，由于RowKey用来唯一标识一行记录，所以必须在设计上保证RowKey的唯一性。

需要注意：由于HBase中数据存储的格式是Key-Value对格式，所以如果向HBase中同一张表插入相同RowKey的数据，则原先存在的数据会被新的数据给覆盖掉（和HashMap效果相同）。

5.3 排序原则

HBase会把RowKey按照ASCII进行自然有序排序，所以反过来我们在设计RowKey的时候可以根据这个特点来设计完美的RowKey，好好的利用这个特性就是排序原则。

5.4 散列原则

散列原则用大白话来讲就是咱们设计出的RowKey需要能够均匀的分布到各个RegionServer上。

比如设计RowKey的时候，当Rowkey 是按时间戳的方式递增，就不要将时间放在二进制码的前面，可以将 Rowkey 的高位作为散列字段，由程序循环生成，可以在低位放时间字段，这样就可以提高数据均衡分布在每个Regionserver实现负载均衡的几率。

结合前面分析的热点现象的起因，思考：

如果没有散列字段，首字段只有时间信息，那就会出现所有新数据都在一个 RegionServer上堆积的热点现象，这样在做数据检索的时候负载将会集中在个别RegionServer上，不分散，就会降低查询效率。

HBase里的RowKey是按照字典序存储，因此在设计RowKey时，咱们要充分利用这个排序特点，将经常一起读取的数据存储到一块，将最近可能会被访问的数据放在一块。如果最近写入HBase表中的数据是最可能被访问的，可以考虑将时间戳作为row key的一部分，由于是字典序排序，所以可以使用Long.MAX_VALUE - timestamp作为row key，这样能保证新写入的数据在读取时可以被快速找到。

总结

看到这里RowKey的各个方面应该都已经搞懂了，本文从RowKey的原理，可能出现的问题，如何优化及各个优化措施对应的缺点和适用的场景，设计原则等角度对RowKey进行了详细全面的解析，相信一定能对你有所帮助。

原文链接：https://blog.csdn.net/qq_26803795/article/details/105994960

【云栖号在线课堂】每天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/live

立即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-06-11
本文作者：CSDN云计算
本文来自：“csdn云计算”，了解相关信息可以关注“csdn云计算”

微信关注我们

原文链接：https://yq.aliyun.com/articles/764871

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

云原生存储系列文章(一)：云原生应用的基石

作者| 郡宝阿里云技术专家参与文末留言互动，即有机会获得赠书福利！导读：存储服务支撑了应用的状态、数据的持久化，是计算机系统中的重要组成部分，也是所有应用得以运行的基础，其重要性不言而喻。在存储服务演进过程中，每一种业务类型、新技术方向都会对存储的架构、性能、可用性、稳定性等提出新的要求，而在当今技术浪潮走到云原生技术普及的时代，存储服务需要哪些特性来支持应用呢？从本文开始，我们将用一个系列文章对云原生存储进行方方面面的探析，该系列文章将从云原生存储服务的概念、特点、需求、原理、使用、案例等方面，和大家一起探讨云原生存储技术新的机遇与挑战，欢迎大家讨论： "There is no such thing as a 'stateless' architecture" - Jonas Boner 云原生存储系列文章(一)：云原生应用的基石

2020-06-11

714

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！云原生是云计算领域的热点之一。就像 “一千个人眼里有一千个哈姆雷特”，大家对 " 云原生 " 的定义也见仁见智。在 CNCF- 云原生计算基金会的定义中： “云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中，构建和运行可弹性扩展的应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式 API。这些技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段，云原生技术使工程师能够轻松地对系统作出频繁和可预测的重大变更。云原生计算基金会（CNCF）致力于培育和维护一个厂商中立的开源生态系统，来推广云原生技术。我们通过将最前沿的模式民主化，让这些创新为大众所用。” 在我们的理解中，云原生计算包含三个维度的内容可编程的、动态的、弹性基础设施支持公共云、专有云、边缘计算等不同环境分布式应用架构具备松耦合、可弹性扩展、高容错性等特点创新的应用开发、交付方式基于自动化、可观测、可管理的软件交付流程，加速创新效率的同时保障系统稳定性本系...

2020-06-11

582

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。