hadoop 集群 跨 版本数据迁移
hadoop 系统提供 了一个 命令 distcp 可以跨版本 迁移数据.
具体的命令格式: 在新的hadoop 版本上执行 .
两个集群间的所有的主机hosts 文件里要把对方的集群节点的主机名配置上去. 因为是mapreduce 作业,不然会job 失败.
在 hadoop 2.x 上执行 .
hadoop distcp hftp://hadoop1.x-namenode:50070/xxxx/xxx/xxx* /path-to-hadoop2.x/xxx/xxx
注意这里用的hftp 协议 ,不是hdfs 协议, hdfs 协议两边不通的.
如果你 hadoop 2.x 是默认安装的 还有个地方需要修改 , 不然会报文件校验 checksum 报错. 无法复制.
hadoop 1.x 的文件校验用的crc32
hadoop 2.x 的文件校验用的CRC32C 两个版本的hadoop 的校验方法不同,会报错.无法迁移数据.
在hadoop 2.x hdfs-site.xml 里增加 一个配置.
<property>
<name>dfs.checksum.type</name>
<value>CRC32</value>
<description>
when transfer data from hadoop 1.x to hadoop 2.x the data block checksum in hadoop 1.x is crc32
and hadoop 2.x is crc32c . transfer data will fail .
</description>
</property>
然后就ok 了.
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
hadoop 2.7.1 jdk 1.7 时区问题以及解决方案.
安装搭建hadoop 2.7.1不在支持jdk 1.6 了,采用了jdk1.7.0_45. 在系统搭建后后出现一个奇怪的现象. hadoop 日志,hhbase 等这些java 应用的日志无一例外的都采用了UTC 时间,而不是东8区. [code] 2015-11-03 06:24:16,129 INFO [master/hadoop52/192.168:16000-SendThread(hadoop54:2181)] [/code] 主机的时间设置是没有问题,都是设置为 GTM+8 而主机时间实际是 14点 相差8个小时. 可以猜测 是时区设置的问题, 首先把目标放在了java 的问题上, 经过调查,发现 java 会去读系统的时区的信息, 在hadoop 的env 文件里 在 opts 参数上制定 java 的时区信息 "-Duser.timezone=GMT+08 " 强制 java 使用 东8区 也可以解决问题. 再进一步调查 发现java 是通过读取环境变量的时区信息来确定时区的,如果环境变量中没有设置TZ 变量, 那么java 就会读取UTC 时间. export TZ=...
- 下一篇
2015-03-22 网易笔试(数据挖掘方向)——邮件事业部
答案正在更新,有想法的也可以留言............ 一:单选题 1:下列程序的输出结果为() #include <iostream.h> void main() { int n[][] = {10,20,30,40,50,60}; int (*p)[3]; p = n; cout<<[0][0] << "," <<*( p[0] + 1) << "," <<(*p)[2]<<endl; } A: 10,30,50 B: 10,20,30 C: 20,40,60 D: 10,30,60 解析: n[2][3] = { 10,20,30, 40,50,60 }; *( p[0] + 1) = p[i][j] (与此类似的形式还有 *( *( p+i ) + j )) 故等于20 (*p)[2]:*p指的是首行 2代表第三列 所以为 30 答案选B 2:存储以下数据,占用字节最多的是() A: 0 B: '0' C: " 0 " D: 0.0 解:int 在不同位数的计算机上表现出的长...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8编译安装MySQL8.0.19
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS关闭SELinux安全模块
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程