《深入理解Hadoop(原书第2版)》——2.2MapReduce编程模型简介
本节书摘来自华章计算机《深入理解Hadoop(原书第2版)》一书中的第2章,第2.2节,作者 [美]萨米尔·瓦德卡(Sameer Wadkar),马杜·西德林埃(Madhu Siddalingaiah),杰森·文纳(Jason Venner),译 于博,冯傲风,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.2MapReduce编程模型简介
Hadoop系统支持MapReduce编程模型,这个编程模型由谷歌公司发明,该模型可以利用由大量商用服务器构成的大规模集群来解决处理千兆级数据量的问题。MapReduce模型有两个彼此独立的步骤,这两个步骤都是可以配置并需要用户在程序中自定义:
- Map:数据初始读取和转换步骤,在这个步骤中,每个独立的输入数据记录都进行并行处理。
- Reduce:一个数据整合或者加和的步骤。在这个步骤中,相关