《R与Hadoop大数据分析实战》一2.1 MapReduce基础概念
本节书摘来自华章出版社《R与Hadoop大数据分析实战》一书中的第2章,第2.1节,作者 (印)Vignesh Prajapati,更多章节内容可以访问云栖社区“华章计算机”公众号查看
2.1 MapReduce基础概念
如果没有使用过集群或信息传递接口(Message Passing Interface,MPI),那么理解MapReduce基础概念将不会是一件容易的事。更多的实际应用是数据不存放在一个硬盘中而是存放于分布式文件系统中(Distributed File System,DFS),或存放于由Hadoop技术实现的分布式软件中。
MapReduce同时也是一个编程模型,它以一种分布式方法进行工作。其中包括信息传递接口(MPI)和同步并行计算模型(Bulk Synchronous Parallel,BSP)等概念。为了使R语言或