Hadoop 上云: 存算分离架构设计与迁移实践
一面数据原有的技术架构是在线下机房中使用 CDH 构建的大数据集群。自公司成立以来,每年都保持着高速增长,业务的增长带来了数据量的剧增。 在过去几年中,我们按照每 1 到 2 年的规划扩容硬件,但往往在半年之后就不得不再次扩容。而每次扩容都需要花费大量精力。 为了解决包括扩容周期长、计算存储资源不匹配以及高昂的运维成本等这些问题,我们决定对数据架构进行改造,并将数据迁移到云端,采用存算分离的结构。 在这个案例中,我们将为大家介绍 Hadoop 上云的架构设计、选型的思考、组件评估以及数据迁移的整个过程。 目前,基于JuiceFS 我们实现了计算和存储分离的架构,总存储量增加了2倍;性能方面的变化无明显感知,运维成本大幅降低。在案例的末尾还附上了针对阿里云 EMR 以及 JuiceFS 的一手运维经验,希望这个案例能为其他面临类似问题的同行提供有价值的参考 01 旧架构及挑战 为了满足业务需求,一面数据抓取了国内外数百个大型网站的数据,目前数量已经超过 500 个,并积累了大量的原始数据、中间数据和结果数据。随着我们不断增加抓取的网站数量和服务的客户群,数据量也在快速增长。因此,我们着手...