BDS - HBase数据迁移同步方案的设计与实践
概览
BDS针对开源HBase目前存在的同步迁移痛点,自主研发的一套数据迁移的平台。有关于BDS的基本介绍,可以查看《BDS-HBase数据迁移同步的利器》。本文主要介绍目前在阿里云上,BDS是如何进行HBase集群之间的数据迁移和数据的实时同步的。
架构
- BDS采用分布式的架构,由BDSMaster节点生成、调度任务给各个BDSWorker节点
- BDSWorker节点负责具体的任务执行,是无状态的,方便扩容、升级
- Reader 和 Writer 插件化,支持跨版本,异构数据源的迁移和实时数据同步
历史数据迁移方案
对于历史存量数据的迁移,我们是通过拷贝文件的方式,将数据文件拷贝到目标集群,然后统一对文件进行Bulkload,将数据装载到目标表中
迁移流程:
- 客户提交历史数据迁移的任务
- BDSMaster获取原表的Region分区情况,针对每一个Re

