自建hadoop集群迁移到EMR之数据迁移篇
自建集群要迁移到EMR集群,往往需要迁移已有数据。本文主要介绍hdfs数据和hive meta数据如何迁移。
前置
已按需求创建好EMR集群。
迁移hdfs数据
主要依靠distcp,核心是打通网络,确定hdfs参数和要迁移内容,测速,迁移。
网络
需要自建集群和EMR各个节点网络互通。同为VPC网络只需要同一个安全组,不同的安全组需要设置安全组互通。
如果自建集群是经典网络,EMR集群是vpc,网络访问需要设置CLASSICLINK.参见文档,详情可以咨询ECS客服。
设置后可以在新集群节点上ssh 老集群节点确定网络连通情况,distcp操作如果有xx 节点无法连接xx节点的异常,说明没有连通,需要继续设置。
hdfs权限配置确认
hdfs有权限设置,确定老集群是否有acl规则,是否要同步,检查dfs.permissions.enabled 和d