【Coursera课程笔记】Web智能和大数据Week3_MapReduce
本文目的 到今天为止,Coursera上的课程Web Intelligence and Big Data[5]已经上到Week 3(从0开始计数,实际上是4周)。前几周讲了一些机器学习的算法,如LHS,PageRank,朴素贝叶斯分类器等。但是光有这些算法还不够,特别是在当前这种海量数据(Big Data)盛行的年代。所以,Week 3就聊到了一种通用的大数据处理解决方法——Map Reduce(后面简称MR)。此方法最初来自Google的一篇论文[1],现在用来指代一种编程方式,主要作用与大规模数据集(通常在1T以上)的并行计算(很多算法都可以用MR方式实现)。本周课程主要内容介绍了MR的编程模型(结合Mincemeat[2]和Octopy[3]),运作原理和计算效率。在这里简单记录本周内容,作为备忘,对后面的工作会有帮助。 MapReduce编程方式 MR是一种编程模式。基于这种编程模式,可以有多种实现,鼎鼎大名的Hadoop就是其中之一。在MR的世界中,你只需要实现两个方法:map和reduce,剩下的所有事情交给MR框架,比如消息处理,中间数据存储,数据合并,容错等。 上千...



