《Hadoop实战第2版》——3.2节MapReduce计算模型
3.2 MapReduce计算模型
要了解MapReduce,首先需要了解MapReduce的载体是什么。在Hadoop中,用于执行MapReduce任务的机器有两个角色:一个是JobTracker,另一个是TaskTracker。JobTracker是用于管理和调度工作的,TaskTracker是用于执行工作的。一个Hadoop集群中只有一台JobTracker。
3.2.1 MapReduce Job
在Hadoop中,每个MapReduce任务都被初始化为一个Job。每个Job又可以分为两个阶段:Map阶段和Reduce阶段。这两个阶段分别用两个函数来表示,即Map函数和Reduce函数。Map函数接收一个形式的输入,然后产生同样为形式的中间输出,Hadoop会负责将所有具有相同中间key值的value集合到一起传递给Reduce