和远哥一起了解Hadoop的MapReduce是如何运行的
Hadoop越来越火,而Hadoop里面有个核心的玩意,那就是MapReduce,它在Hadoop的并行计算中承担很重要的作用,也是在Hadoop下做程序开发时,必须要了解的,下面我们就MapRecude的一个简单例子WordCount来做一下深入的了解和分析。 先跟远哥一起先了解一下什么是MapReduce吧。 首先MapReduce它是两个英文单词组成的,Map表示映射,Reduce表示化简,它是一种编程模型,用于大规模数据集(大于1TB)的并行运算,主要思想来自函数式编程。 在Hadoop中,MapReduce过程分三个步骤:Map(主要是分解并行的任务)、Combine(主要是为了提高Reduce的效率)和Reduce(把处理后的结果再汇总起来)。 关于如何搭建Hadoop运行环境,可以阅读我的另外一篇博文:http://www.cnblogs.com/taven/archive/2012/08/12/2634145.html 好了,我们先看一下运行一个Hadoop作业的启动代码: Jobjob= newJob(conf,"wordcount"); job.setJar...