阿里HBase的数据管道设施实践与演进

2018-05-20 634

如果你对大数据存储、分布式数据库、HBase等感兴趣，欢迎加入我们，一起做最好的大数据在线存储，职位参考及联系方式：https://maimai.cn/job?webjid=1heZGIyM4&srcu=1aOrffoj1&src=app&fr=my_jobsrecruit_job

福利：国际顶级盛会HBaseCon Asia 2018将于8月在北京举行，目前正免费开放申请中，更多详情参考https://yq.aliyun.com/promotion/631

摘要：第九届中国数据库技术大会，阿里巴巴技术专家孟庆义对阿里HBase的数据管道设施实践与演进进行了讲解。主要从数据导入场景、 HBase Bulkload功能、HImporter系统、数据导出场景、HExporter系统这些部分进行了讲述。
数十款阿里云产品限时折扣中，赶快点击这里，领券开始云上实践吧
直播视频请点击
 PPT下载请点击
精彩视频整理：

数据导入场景

生意参谋

生意参谋是一种为商家服务，帮助商家进行决策和运营的数据产品。如在淘宝或天猫上开一家店，生意参谋会提供店里每天进入的流量、转化率、客户的画像和同行业进行对比这些数据属于什么位置。商家可以根据流量分析、活动分析和行业分析去进行决策。可以根据平时日志、点击量和访问量，数据库把数据通过实时的流处理写入HBase。有一部分写到离线系统里，定期做一些清洗和计算再写入HBase，然后供业务去查询 HBase。

蚂蚁风控

在蚂蚁上任何一笔交易支付都会调用风控，风控主要是去看这次交易是否属于同一个设备，是否是经常交易的地点，以及交易的店铺信息。它必须在100ms—200ms把风险做完，风控是根据长期的历史信息、近期历史的信息和实时的信息三个方向做综合考量。用户的输入会实时的写入HBase，同时这个实时的信息增量也会导入到离线系统里面，离线系统会定期的对数据进行计算，计算的数据结果会作为历史或近期历史再写回HBase，一个支付可能会调百十次的风控，而且需要在百毫秒内进行返回。

数据导入需要解决的问题

2013年刚刚开始做数据导入的时候面临的更多的是功能需求性的问题，现在需要考虑的是导入的周期性调度、异构数据源多、导入效率高和多集群下的数据一致性的问题。前两个问题更适合由平台化去解决，HBase的数据导入更关注的是导入效率和多集群下的数据的一致性。

什么是Bulkload？Bulkload有什么功能？

Bulkload使用的是一种新的结构LSM Tree进行写入更新，其结构如上图所示。使用Application code 进行数据写入，数据会被写入到MemStore，MemStore在HBase里是一个跳表，可以把它看成一个有序的列表，并不断往里面插入数据。当数据达到一定量时就会启动flush对数据进行编码和压缩，并写成HFile。HFile是由索引块和数据块组成的文件结构，其特点是只读性，生成HFile之后就不可改了。当用户进行读取数据的时候，就会从三个HFile和一个MemStore进行查找进行读取。这个结构的优化就是就把随机的写变成了有序的写。Bulkload就可以把上千上万条数据在毫秒内加入到HBase里。所以Bulkload的优势如下：

高吞吐
不需要WAL
避免small compaction
支持离线构建

Bulkload的导入结构如上图所示，数据来源于数仓，首先根据HBase的分区规则对数据进行分区和排序。然后会生成Partition Data，需要写一个HBase插进去。同步中心就会调动一个作业，作业内部会有很多的tasks，每个task独立的执行把文件读出，写到HDFS上，形成一个HFile文件。当把所有文件写完，同步中心就会调Bulkload指令到HBase，把所有的HFile一次性的load进去。
以前采用的是多集群导入的方法，但是多集群导入有很多缺点如下：

很难保证多个任务同时完成，导致一定时间窗口内数据不一致
调度后的运行环境不一致
网络延迟不一致
失败重试
集群部署对业务不透明的缺点：
需要配置多个任务
集群迁移需要重新配置任务
为了保证数据的一致性，采用了逻辑集群导入法。

逻辑集群的流程如上图所示，首先进行分区合并，然后进行双数据流处理，把流分别写到Active和Backup里，当Active和Backup的HFile文件写完后执行Bulkload。因为Bulkload是毫秒级别的，所以能实现一致性。
多任务和逻辑集群的差别比较如下：

多任务模式：需要重复配置，是不透明的，很难保证一致性，分区排序
需要执行两次，编码压缩两次。
逻辑集群模式：配置一次，迁移无感知，在一致性上达到毫秒级，分区排序是执行一次，但分区数量变多，编码压缩一次。
随着业务做得越来越大，这种导入就会遇到新的线上问题，如扩展性、资源利用率、研发效率、监控等。

什么是HImporter系统？

HImporter是用于辅助数据同步的中间层，他会把所有HFile的构建，加载逻辑下沉到HImporter层。

HImporter所处的位置如上图所示。

HImporter的优势

分布式水平扩展，同一个作业的不同任务可以调度到HImporter的不同worker节点
提高资源利用率，将压缩等CPU密集操作下降到HImporter
快速迭代，HImporter的运维和迭代与同步中心独立
独立监控，HImporter可按照自己的需求实现监控

HImporter 功能迭代

功能迭代主要包括表属性感知、保证本地化率、支持轻量计算和安全隔离。其中表属性感知就是感知特性，并保证特征不会变，主要包括、混合存储、新压缩编码、表级别副本数；保证本地化率是将Hfile写入到分区所在服务器，保证本地化率和存储特性，对一些rt敏感的业务效果明显；支持轻量计算就是支持MD5，字符串拼接等函数；安全隔离是避免对外暴露HDFS地址、支持Task级别重试。

数据导出场景

菜鸟联盟

菜鸟联盟的场景如上图所示。一个物流详情会传到HBase，HBase会传到数据仓库，数据仓会产生报表，然后去训练路由算法。

淘宝客服

淘宝客服的一个退款应用场景如上图。这是一个逆向链接，把退款、纠纷、退款物流、退款费用等实时的写入到HBase里，HBase会实时的写入queue里，blink流系统会消费queue产生一些数据会返回到HBase，blink输出会支撑智能服务、客户监控等。

增量数据导出需要解决的问题

增量数据导出需要解决的问题主要是离线数据的T+1处理特点、吞吐量、实时性、主备流量切换等。
早期的方案是会周期性的从HDFS里把所有的日志罗列出来，然后对日志进行排序会产生一个有序的时间流。取work里同步时间最短的作为最终的同步时间。这种方案具有对NN节点造成很大压力、无法应对主备切换、日志热点处理能力低等问题。

HExporter系统

HExporter1.0如上图所示，HExporter1.0优势主要有主备流量切换不影响数据导出，能够识别数据来源，过滤非原始数据；独立的同步时间流，能够保障数据按有序时间分区Dump到数据仓库；复用HBase replication框架，能够降低开发工作量，复用HBase的监控，运维体系。
HExporter1.0 优化主要包括以下五点：

减少拓扑网络中的数据发送，备库避免向Exporter发送重复数据；
远程辅助消化器，空闲的机器帮助消化热点；
避免发送小包，HExporter在接收到小包后，等待一段时间再处理；
同步通道配置隔离，实时消费链路和离线消费链路可以采用不同的配置；
数据发送前压缩。
HExporter1.0的问题是业务写入流量产生高峰，离线出现同步延迟；HBase升级速度慢。然后我们就有了以下解决思路，离线同步的资源可以和在线资源隔离，利用离线大池子可以削峰填谷；Exporter的worker是无状态的，如果把所有逻辑都放在Exporter，那么升级、扩容会简单快速。然后就产生了HExporter2.0。

HExporter2.0如上图所示

总结

ALiHBase数据通道的导入和导出都是添加了中间层，中间层的核心价值易扩展、可靠性高、迭代快和稳定。因为采用分布式水平扩展更易扩展；采用自主识别主备切换，封装对HBase访问更可靠；采用架构解耦，快速迭代使迭代速度更快；因为无状态，节点对等所以更加稳定。

孟庆义：花名天引，阿里巴巴技术专家，专注在大数据领域，拥有多年分布式、高并发、大规模系统的研发与实践经验，先后参与HBase、Phoenix、Lindorm等产品的内核引擎研发，目前负责阿里上万节点的HBase As a Service的发展与落地。

本文由云栖志愿小组毛鹤整理，百见编辑。

更多精彩请关注：
云数据库POLARDB版：https://www.aliyun.com/product/polardb?spm=5176.8142029.388261.347.62136d3etcPz5x
云数据库 HBase版：https://www.aliyun.com/product/hbase?spm=5176.155538.765261.355.57227e0dLAlXGl
云数据库RDS PPAS 版：https://www.aliyun.com/product/rds/ppas?spm=5176.54432.765261.351.6e1e28f5UFqADw

微信关注我们

原文链接：https://yq.aliyun.com/articles/594708

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

SpringBoot开发案例之整合Kafka实现消息队列

前言最近在做一款秒杀的案例，涉及到了同步锁、数据库锁、分布式锁、进程内队列以及分布式消息队列，这里对SpringBoot集成Kafka实现消息队列做一个简单的记录。 Kafka简介 Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。 Kafka是一种高吞吐量的分布式发布订阅消息系统，有如下特性：通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。支持通过Kafka服务器...

2018-05-20

641

2018第九届中国数据库技术大会，阿里云高级技术专家、架构师封神（曹龙）带来题为大数据时代数据库-云HBase架构&生态&实践的演讲。主要内容有三个方面：首先介绍了业务挑战带来的架构演进，其次分析了ApsaraDB HBase及生态，最后分享了大数据数据库的实际案例。数十款阿里云产品限时折扣中，赶快点击这里，领券开始云上实践吧！直播视频回顾PPT下载请点击以下是精彩视频内容整理：业务的挑战存储量量/并发计算增大现如今大量的中小型公司并没有大规模的数据，如果一家公司的数据量超过100T，且能通过数据产生新的价值，基本可以说是大数据公司了。起初，一个创业公司的基本思路就是首先架构一个或者几个ECS，后面加入MySQL,如果有图片需求还可加入磁盘，该架构的基本能力包括事务、存储、索引和计算力。随着公司的慢慢发展，数据量

2018-05-20

659

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。