MaxCompute MapReduce
前言
MapReduce已经有文档,用户可以参考文档使用。本文是在文档的基础上做一些类似注解及细节解释上的工作。
功能介绍
MapReduce
说起MapReduce就少不了WordCount,我特别喜欢文档里的这个图片。
比如有一张很大的表。表里有个String字段记录的是用空格分割开单词。最后需要统计所有记录中,每个单词出现的次数是多少。那整体的计算流程是
- 输入阶段:根据工作量,生成几个Mapper,把这些表的数据分配给这些Mapper。每个Mapper分配到表里的一部分记录。
- Map阶段:每个Mapper针对每条数据,解析里面的字符串,用空格切开字符串,得到一组单词。针对其中每个单词,写一条记录
<Word:单词名,Count:1> - Shuffle阶段-合并排序:也是发生在Mapper上。会先对数据进行排序。比如WordCount
