《R与Hadoop大数据分析实战》一2.2 Hadoop MapReduce技术简介
本节书摘来自华章出版社《R与Hadoop大数据分析实战》一书中的第2章,第2.2节,作者 (印)Vignesh Prajapati,更多章节内容可以访问云栖社区“华章计算机”公众号查看
2.2 Hadoop MapReduce技术简介
一般而言,MapReduce模型可以使用多种语言实现,除此之外,Hadoop MapReduce也是一个用于方便编写应用程序的流行Java语言框架。通过把大数据在大机群(一般有数千台计算机)上并行运算,实现整个系统的高可靠性和高容错性。MapReduce分为Map和Reduce两阶段,并主要处理键值对类型的数据。Map和Reduce任务运行于集群中,Map阶段的输出作为Reduce阶段的输入。
所有数据的输入元素在MapReduce处理时均不能被更新,一旦Map任务的输入数据(键值对数据)发生变化,也不会