Hadoop MapReduce工作详细流程（Partitioner/SortComparator/GroupingComparator）-低调大师

Hadoop MapReduce工作详细流程（Partitioner/SortComparator/GroupingComparator）

2017-12-24 593

转自：http://blog.sina.com.cn/s/blog_7581a4c30102veem.html

map阶段

1. 使用job.setInputFormatClass(TextInputFormat)做为输入格式。注意输出应该符合自定义Map中定义的输出。

2. 进入Mapper的map()方法，生成一个List。

3. 在map阶段的最后，会先调用job.setPartitionerClass()对这个List进行分区，每个分区映射到一个reducer。

4. 每个分区内又调用job.setSortComparatorClass()设置的key比较函数类排序(如果没有通过job.setSortComparatorClass()设置key比较函数类，则使用key的实现的compareTo方法)。可以看到，这是一个二次排序。

5. 如果设置了Combiner（job.setCombinerClass）对output进行一次合并，从而减少对reduce的输出流量和预处理reduce的input数据。但不一定会执行，对于Combiner执行时机参考Reference[4]。

【说明】以上步骤省略了collect阶段、cache阶段等细节，更详细步骤参考Reference[3]

reduce阶段

1. shuffle阶段

reducer开始fetch所有映射到这个reducer的map输出。

2.1 sort阶段

再次调用job.setSortComparatorClass()设置的key比较函数类对所有数据对排序(因为一个reducer接受多个mappers，需要重新排序)。

2.2 secondary sort阶段

然后开始构造一个key对应的value迭代器。这时就要用到分组，使用jobjob.setGroupingComparatorClass()设置的分组函数类。只要这个比较器比较的两个key相同，他们就属于同一个组，它们的value放在一个value迭代器，而这个迭代器的key使用属于同一个组的所有key的第一个key。

3.reduce阶段

最后就是进入Reducer的reduce()方法，reduce()方法的输入是所有的（key和它的value迭代器）。同样注意输入与输出的类型必须与自定义的Reducer中声明的一致。

【注意】reducers的输出是无序的。

微信关注我们

原文链接：https://yq.aliyun.com/articles/666515

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop DistributedCache详解（转载）

转自：http://dongxicheng.org/mapreduce-nextgen/hadoop-distributedcache-details/

2017-12-24

607

安全工程师篇程序开发语言大数据技能图谱机器学习技能图谱架构师技能图谱前端工程师篇嵌入式开发必备技能移动性能优化云计算工程师篇运维工程师篇 DBA 技能图谱 H5技能图谱 Hadoop 家族技能图谱 iOS 开发工程师 OpenResty 安全工程师篇（完稿）-01.jpg iOS 开发工程师1.0-01.jpg 运维工程师篇（完稿）-01.jpg 云计算工程师篇（完稿）-01.jpg 前端工程师篇（完稿）-01.jpg 程序开发语言（完稿）-01.jpg OpenResty -01.jpg Hadoop 家族技能图谱（完稿）-01.jpg 嵌入式开发必备技能（完稿）-01.jpg H5技能图谱1.0-01.jpg DBA 技能图谱1.0-01.jpg 移动性能优化1.0-01.jpg 大数据技能图谱.jpg 机器学习技能图谱.jpg 架构师技能图谱.jpg 个人介绍：高广超：多年一线互联网研发与架构设计经验，擅长设计与落地高可用、高性能、可扩展的互联网架构。本文首发在高广超的简书博客转载请注明！简书博客头条号

2017-12-24

724

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。