《Hadoop MapReduce实战手册》一1.3 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它
本节书摘来异步社区《Hadoop MapReduce实战手册》一书中的第1章,第1.3节,作者: 【美】Srinath Perera , Thilina Gunarathne 译者: 杨卓荦 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.3 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它 Hadoop MapReduce实战手册本节传授如何写一个简单的MapReduce程序,以及如何执行它,如图1-1所示。 要运行MapReduce作业,用户需要提供一个map函数、一个reduce函数、输入数据,以及输出数据的位置。在执行时,Hadoop实际执行如下步骤。 Hadoop通过换行符将输入数据分解成多个数据项,并且在每一个数据项上运行一次map函数,将这个数据项作为对应map函数的输入。执行完成时,每个map函数输出一个或者多个键值对。 Hadoop收集所有map函数产生的键值对,并且通过键对它们进行排序,将具有相同值的键值对分成一组。 对于每一个不同的键,Hadoop会运行一次reduce函数,该函数的输入是这个键和它所对应...