MaxCompute MapReduce
前言
MapReduce已经有文档,用户可以参考文档使用。本文是在文档的基础上做一些类似注解及细节解释上的工作。
功能介绍
MapReduce
说起MapReduce就少不了WordCount,我特别喜欢文档里的这个图片。
比如有一张很大的表。表里有个String字段记录的是用空格分割开单词。最后需要统计所有记录中,每个单词出现的次数是多少。那整体的计算流程是
- 输入阶段:根据工作量,生成几个Mapper,把这些表的数据分配给这些Mapper。每个Mapper分配到表里的一部分记录。
- Map阶段:每个Mapper针对每条数据,解析里面的字符串,用空格切开字符串,得到一组单词。针对其中每个单词,写一条记录
<Word:单词名,Count:1>
- Shuffle阶段-合并排序:也是发生在Mapper上。会先对数据进行排序。比如WordCount
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
[ElasticSearch]Search之分页
之前的文章[ElasticSearch]搜索我们知道,我们的空搜索匹配到集群中的13个文档。 但是,命中数组中只有10个文档(文章只显示了2条数据,故意省略掉)。 我们如何查看其他文档呢? 与SQL使用LIMIT关键字返回一个“页面”的结果数据相同,Elasticsearch接受from和size参数: size 表示应返回的结果数,默认为10 from 表示应跳过的初始结果数,默认为0 如果想每页显示五个条数据,那么第1到3页的结果请求如下所示: curl -XGET 'localhost:9200/_search?size=5&pretty' curl -XGET 'localhost:9200/_search?size=5&from=5&pretty' curl -XGET 'localhost:9200/_search?size=5&from=10&pretty' Java版本: SearchRequestBuilder searchRequestBuilder = client.prepareSearch(); searchReques...
- 下一篇
Apache Storm 官方文档 —— 内部技术实现
这部分的 wiki 是为了说明 Storm 是怎样实现的。在阅读本章之前你需要先了解怎样使用 Storm。 代码库架构 拓扑的生命周期1 消息传递的实现1 Ack 框架的实现 Metrics 事务型拓扑的工作机制1 单元测试2 时间模拟 完整的拓扑 集群跟踪 说明 1该文内容已过期。2该文官方文档暂未提供。 转载自并发编程网 - ifeve.com
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8编译安装MySQL8.0.19
- 2048小游戏-低调大师作品
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS6,7,8上安装Nginx,支持https2.0的开启