《MapReduce设计模式》一1.4 Hadoop示例:单词计数
本节书摘来异步社区《MapReduce设计模式》一书中的第1章,第1.4节,作者: 【美】Donald Miner , Adam Shook 译者: 徐钊 , 赵重庆 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.4 Hadoop示例:单词计数 在介绍完MapReduce的整个处理过程之后,让我们来看一个简单的示例:单词计数(Word Count)。“单词计数”程序是一个典型的MapReduce示例,因为它既简单,又很适合使用MapReduce高效地处理。很多人会抱怨说“单词计数”作为示例已经被用过太多次了,希望本书后面的内容能弥补这一点! 在这个特定的示例中,我们将对StackOverflow网站上用户提交的评论进行单词计数。网页中Text域的内容将被抽取出来并做一些预处理,然后我们再计算每个词出现的次数。这个数据集中的示例记录如下: <row Id="8189677" PostId="6881722" Text="Have you looked at Hadoop?" CreationDate="2011-07-30T07:29:33.343" U...