Hadoop深入学习:Combiner
在本节中,我们着重学习MapReduce编程模型中的Combiner组件。 每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。 1)、Combiner最基本是实现本地key的聚合,对map输出的key排序、value进行迭代。如下所示: 引用 map:(key1,value1) ——> list(key2,value2) conbine:(key2,list(value2)) ——> list(key2,value2) reduce:(key2,list(value2)) ——> list(key3,value3) 2)、Combiner还有本地reduce功能(其本质上就是一个reduce): 引用 map:(key1,value1) ——> list(key2,value2) conbine:(key2,list(value2)) ——> list(key3,value3) re...