hadoop集群同步实现
#!/usr/bin/env python #coding=utf-8 #scribe日志接收存在小集群到大集群之间, distcp 同步失败的情况,需要手动进行补入。 #1、如果查询补入的日志量少,则可以之间用脚本处理。如果量大,则使用 hadoop 提交job。 # hadoop job 提交方式: # hadoop jar /usr/local/hadoop-2.4.0/share/hadoop/tools/lib/hadoop-distcp-2.4.0.jar -m 100 hdfs://scribehadoop/scribelog/common_act/2016/08/02/13/ /file/realtime/distcpv2/scribelog/common_act/2016/08/02/13 --update # --update 参数表示如果目标地址目录存在,则更新该目录中的内容。 #手动同步脚本使用方法: python manual_check_sync.py dst_path #脚本完成大集群和小集群之间的目录大小比较,目录文件比较。 输出差异文件列表。最后...