《R与Hadoop大数据分析实战》一2.4 编写Hadoop MapReduce示例程序
本节书摘来自华章出版社《R与Hadoop大数据分析实战》一书中的第2章,第2.4节,作者 (印)Vignesh Prajapati,更多章节内容可以访问云栖社区“华章计算机”公众号查看 2.4 编写Hadoop MapReduce示例程序 现在要通过一个很简单且普通的单词统计(word count)来学习MapReduce。该例子的目标是统计每个单词在文章中出现的次数。这些文章作为MapReduce的输入文件。在该例中,已经准备了一些文本文件,我们希望计算所有单词在这些文件中出现的频率。我们通过Hadoop MapReduce来进行设计。本节中,将使用旧版API接口学习Hadoop MapReduce编程。假设读者已经配置了Hadoop的环境变量(请参考第1章的内容)。同时,我们不使用R语言统计单词,而是只使用Hadoop技术。基本上