《Hadoop与大数据挖掘》一2.4.2 MapReduce原理
本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章 ,第2.4.2节,张良均 樊 哲 位文超 刘名军 许国杰 周 龙 焦正升 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.4.2 MapReduce原理
1.通俗理解MapReduce原理
现在你接到一个任务,给你10本长篇英文小说,让你统计这10本书中每一个单词出现的次数。这便是Hadoop编程中赫赫有名的HelloWorld程序:词频统计。这个任务的结果形式如表2-6所示。
即在这10本书中a共出现了12300次,ai共出现了63次……依次计算出每一个单词出现多少次。天啊,这个工作必须由专业人士做呀,自己做的话还不累死呀。这时你可以把这个工作外包给一支职业分布式运算工程队做。
分布式运算工程队中按岗位有Mapper、Mapper助理Comb-iner、Map

