MapReduce在Map端的Combiner和在Reduce端的Partitioner-低调大师

MapReduce在Map端的Combiner和在Reduce端的Partitioner

2017-11-20 585

1.Map端的Combiner.

通过单词计数WordCountApp.java的例子,如何在Map端设置Combiner...

只附录部分代码:

 1 /**
 2  * 以文本
 3  * hello    you
 4  * hello    me
 5  * 为例子.
 6  * map方法调用了两次,因为有两行
 7  * k2 v2 键值对的数量有几个?
 8  * 有4个.有四个单词.
 9  * 
10  * 会产生几个分组?
11  * 产生3个分组.
12  * 有3个不同的单词.
13  *
14  */
15 public class WordCountApp {
16     public static void main(String[] args) throws Exception {
17         //程序在这里运行,要有驱动.
18         Configuration conf = new Configuration();
19         Job job = Job.getInstance(conf,WordCountApp.class.getSimpleName());
20         
21         //我们运行此程序通过运行jar包来执行.一定要有这句话.
22         job.setJarByClass(WordCountApp.class);
23         FileInputFormat.setInputPaths(job,args[0]);
24         
25         job.setMapperClass(WordCountMapper.class);//设置Map类
26         job.setMapOutputKeyClass(Text.class);//设置Map的key
27         job.setMapOutputValueClass(LongWritable.class);//设置Map的value
28         
29         job.setCombinerClass(WordCountReducer.class);//数据在Map端先进行 一次合并.
30         /*
31              这个setCombinerClass设置参数只能是一个继承了Reduce类的类.直接用我们定义的WordCountReducer.
32             在单词技术的例子中,Map端产生了四个键值对,两个hello,you和me各一个.
33             这样合并之后Map端最终只产生三个键值对.
34             这样在Reduce端也只处理三个键值对,而不是没有合并之前的四个.
35             这样Map端最终产生的键值对少了,Map端向Reduce端传递键值对占用的带宽就小.提高网络通信的速度.
36             Reduce端接受键值对的数量变少,就减少了Reduce端处理键值对所需要的时间.
37             以上就是Combiner的好处(在Map端对数据进行一次合并).
38             Map端的合并和Reduce端的合并是不能相互取代的.
39             在Map端进行的合并是局部合并,当前Map任务在它之中的合并.
40             各个Map任务之间还是会 有相同的数据的.这些相同的数据要到Reduce端进行合并.
41          */
42         
43         job.setReducerClass(WordCountReducer.class);//设置Reduce的类
44         job.setOutputKeyClass(Text.class);//设置Reduce的key Reduce这个地方只有输出的参数可以设置. 方法名字也没有Reduce关键字区别于Map
45         job.setOutputValueClass(LongWritable.class);//设置Reduce的value.
46         
47         FileOutputFormat.setOutputPath(job, new Path(args[1]));
48         job.waitForCompletion(true);//表示结束了才退出,不结束不退出
49     }

......................................................

2.Reduce端的Partitioner.

以流量统计TrafficCountApp.java的例子示例Reduce端设置Partitioner.

只附录部分代码:

 1 public class TrafficApp {
 2     public static void main(String[] args) throws Exception {
 3         Job job = Job.getInstance(new Configuration(), TrafficApp.class.getSimpleName());
 4         job.setJarByClass(TrafficApp.class);
 5         
 6         FileInputFormat.setInputPaths(job, args[0]);
 7         
 8         job.setMapperClass(TrafficMapper.class);
 9         job.setMapOutputKeyClass(Text.class);
10         job.setMapOutputValueClass(TrafficWritable.class);
11         
12         job.setNumReduceTasks(2);//设定Reduce的数量为2
13         job.setPartitionerClass(TrafficPartitioner.class);//设定一个Partitioner的类.
14         /*
15          *Partitioner是如何实现不同的Map输出分配到不同的Reduce中?
16          *在不适用指定的Partitioner时,有 一个默认的Partitioner.
17          *就是HashPartitioner. 
18          *其只有一行代码,其意思就是过来的key,不管是什么,模numberReduceTasks之后 返回值就是reduce任务的编号.
19          *numberReduceTasks的默认值是1.  任何一个数模1(取余数)都是0. 
20          *这个地方0就是取编号为0的Reduce.(Reduce从0开始编号.) 
21          */
22         
23         job.setReducerClass(TrafficReducer.class);
24         job.setOutputKeyClass(Text.class);
25         job.setOutputValueClass(TrafficWritable.class);
26         
27         FileOutputFormat.setOutputPath(job, new Path(args[1]));
28         job.waitForCompletion(true);
29     }
30     
31     public static class TrafficPartitioner extends Partitioner<Text,TrafficWritable>{//k2,v2
32 
33         @Override
34         public int getPartition(Text key, TrafficWritable value,int numPartitions) {
35             long phoneNumber = Long.parseLong(key.toString());
36             return (int)(phoneNumber%numPartitions);
37         }
38         
39     }

.................................................

//============附录MapReduce中Reduce使用默认的HashPartitioner进行分组的源代码==============

本文转自SummerChill博客园博客，原文链接：http://www.cnblogs.com/DreamDrive/p/5503456.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/376522

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

HBase基本概念和hbase shell常用命令用法

1. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现，它利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。 2. HBase的表结构 HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/列簇(column family)。 Row Key column-family1 column-family2 column-family3 column1 column2 column1 column2 column3 column1 key1 t1:abc t2:gdxdf t4:dfads t3:hello t2:world key2 t3:abc t1:gdxdf t4:dfads t3:hello t2:dfdsfa t3:dfdf key3 t2:dfadfasd t1:dfdasddsf t2:dfxxdfasd t1:taob...

2017-11-21

570

　 MapReduce 也采用了 Master/Slave（M/S）架构。它主要由以下几个组件组成：Client、JobTracker、 TaskTracker 和 Task。下面分别对这几个组件进行介绍。（1）Client 用户编写的MapReduce程序通过Client提交到JobTracker端；同时，用户可通过Client提供的一些接口查看作业运行状态。在Hadoop内部用“作业” （Job）表示MapReduce程序。一个 MapReduce程序可对应若干个作业，而每个作业会被分解成若干个Map/Reduce任务（Task）。（2）JobTracker JobTracker 主要负责资源监控和作业调度。JobTracker 监控所有 TaskTracker 与作业Job的健康状况，一旦发现失败情况后，其会将相应的任务转移到其他节点；同时，JobTracker 会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器，而调度器会在资源出现空闲时，选择合适的任务使用这些资源。在Hadoop 中，任务调度器是一个可插拔的模块，用户可以根据自己的需要设计相应的调度...

2017-11-21

994

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。