记Hadoop2.5.0线上mapreduce任务执行map任务划分的一次问题解决
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/51397729 前言 近日在线上发现有些mapreduce作业的执行时间很长,我们需要解决这个问题。输入文件的大小是5G,采用了lzo压缩,整个集群的默认block大小是128M。本文将详细描述这次线上问题的排查过程。 现象 线上有一个脚本,为了便于展示,我将这个脚本重新copy了一份并重命名为zzz。这个脚本实际是使用Hadoop streaming运行一个mapreduce任务,在线上执行它的部分输出内容如下: 可以看到map任务划分为1个。这个执行过程十分漫长,我将中间的一些信息省略,map与reduce任务的执行进度如下: 16/05/16 10:22:16 INFO mapreduce.Job: map 0% reduce 0% 16/05/16 10:22:32 INFO mapreduce.Job: map 1% reduce 0% 。。。 16/05/16 10:44:14 INFO mapreduce.Job: map ...