[Hadoop]数据复制DistCp
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/SunnyYoona/article/details/54668028 1.需求 我们项目中需要复制一个大文件,最开始使用的是hadoop cp命令,但是随着文件越来越大,拷贝的时间也水涨船高。下面进行hadoop cp与hadoop distcp拷贝时间上的一个对比。我们将11.9G的文件从data_group/adv/day=20170116下所有文件复制到tmp/data_group/adv/day=20170116/文件下 1.1 查看文件大小 hadoop fs -du -s -h data_group/adv/day=20170116 11.9 G data_group/adv/day=20170116 1.2 复制 hadoop distcp data_group/adv/day=20170116 \ tmp/data_group/adv/day=20170116 hadoop fs -cp data_group/adv/day=20170116 \ tmp/data_gro...