一个助Hadoop集群数据快速上云工具
背景
越来越多的公司和企业希望将业务迁移到云上,同时业务数据也希望能更顺畅的迁移到云上。
当前业界有很多公司是以Hadoop技术构建数据中心,所以本文将探讨如何快速的将Hadoop文件系统(HDFS)上的数据迁移到云上。
在阿里云上使用最广泛的存储服务是OSS对象存储。OSS的数据迁移工具ossimport2可以将您本地或第三方云存储服务上的文件同步到OSS上,但这个工具无法读取Hadoop文件系统的数据,无法发挥Hadoop分布式的特点。并且因为工具只支持本地文件,所以需要将HDFS上的文件先下载到本地,再通过工具上传,整个过程耗时又耗力。
工具介绍
本文介绍一个从Hadoop集群直接迁移数据到OSS上的工具,该工具由阿里云E-MapReduce团队开发,基于Hadoop社区中常用的DistCp工具,并从E-MapReduce产品中剥离出