MapReduce的二次排序-低调大师

MapReduce的二次排序

2017-11-12 738

一.MR的二次排序的需求说明

在mapreduce操作时，shuffle阶段会多次根据key值排序。但是在shuffle分组后，相同key值的values序列的顺序是不确定的(如下图)。如果想要此时value值也是排序好的，这种需求就是二次排序。

二.测试的文件数据

a 1
a 5
a 7
a 9
b 3
b 8
b 10

三.未经过二次排序的输出结果

四.第一种实现思路

直接在reduce端对分组后的values进行排序。

reduce关键代码

 1 @Override
 2      public void reduce(Text key, Iterable<IntWritable> values, Context context)
 3              throws IOException, InterruptedException {
 4 
 5           List<Integer> valuesList = new ArrayList<Integer>();
 6 
 7           // 取出value
 8           for(IntWritable value : values) {
 9               valuesList.add(value.get());
10           }
11           // 进行排序
12           Collections.sort(valuesList);
13 
14           for(Integer value : valuesList) {
15              context.write(key, new IntWritable(value));
16           }
17 
18      }

输出结果：

很容易发现，这样把排序工作都放到reduce端完成，当values序列长度非常大的时候，会对CPU和内存造成极大的负载。

注意的地方（容易被“坑”）

在reduce端对values进行迭代的时候，不要直接存储value值或者key值，因为reduce方法会反复执行多次，但key和value相关的对象只有两个，reduce会反复重用这两个对象。需要用相应的数据类型.get()取出后再存储。

五.第二种实现思路

将map端输出的<key,value>中的key和value组合成一个新的key（称为newKey），value值不变。这里就变成<(key,value),value>，在针对newKey排序的时候，如果key相同，就再对value进行排序。

需要自定义的地方
1.自定义数据类型实现组合key
实现方式：继承WritableComparable
2.自定义partioner，形成newKey后保持分区规则任然按照key进行。保证不打乱原来的分区。
实现方式：继承partitioner
3.自定义分组，保持分组规则任然按照key进行。不打乱原来的分组
实现方式：继承RawComparator
自定义数据类型关键代码

 1 import java.io.DataInput;
 2 import java.io.DataOutput;
 3 import java.io.IOException;
 4 import org.apache.hadoop.io.WritableComparable;
 5 
 6 public class PairWritable implements WritableComparable<PairWritable> {
 7  // 组合key
 8    private String first;
 9    private int second;
10 
11  public PairWritable() {
12  }
13 
14  public PairWritable(String first, int second) {
15      this.set(first, second);
16  }
17 
18  /**
19   * 方便设置字段
20   */
21  public void set(String first, int second) {
22      this.first = first;
23      this.second = second;
24  }
25 
26  /**
27   * 反序列化
28   */
29  @Override
30  public void readFields(DataInput arg0) throws IOException {
31      this.first = arg0.readUTF();
32      this.second = arg0.readInt();
33  }
34  /**
35   * 序列化
36   */
37  @Override
38  public void write(DataOutput arg0) throws IOException {
39      arg0.writeUTF(first);
40      arg0.writeInt(second);
41  }
42 
43  /*
44   * 重写比较器
45   */
46  public int compareTo(PairWritable o) {
47      int comp = this.first.compareTo(o.first);
48 
49      if(comp != 0) {
50          return comp;
51      } else { // 若第一个字段相等，则比较第二个字段
52          return Integer.valueOf(this.second).compareTo(
53                  Integer.valueOf(o.getSecond()));
54      }
55  }
56 
57  public int getSecond() {
58      return second;
59  }
60  public void setSecond(int second) {
61      this.second = second;
62  }
63  public String getFirst() {
64      return first;
65  }
66  public void setFirst(String first) {
67      this.first = first;
68  }

自定义分区规则

 1 import org.apache.hadoop.io.IntWritable;
 2 import org.apache.hadoop.mapreduce.Partitioner;
 3 
 4 public class SecondPartitioner extends Partitioner<PairWritable, IntWritable> {
 5 
 6     @Override
 7     public int getPartition(PairWritable key, IntWritable value, int numPartitions) {
 8         /* 
 9          * 默认的实现 (key.hashCode() & Integer.MAX_VALUE) % numPartitions
10          * 让key中first字段作为分区依据
11          */
12         return (key.getFirst().hashCode() & Integer.MAX_VALUE) % numPartitions; 
13     }
14 }

自定义分组比较器

 1 import org.apache.hadoop.io.RawComparator;
 2 import org.apache.hadoop.io.WritableComparator;
 3 
 4 public class SecondGroupComparator implements RawComparator<PairWritable> {
 5 
 6     /*
 7      * 对象比较
 8      */
 9     public int compare(PairWritable o1, PairWritable o2) {
10         return o1.getFirst().compareTo(o2.getFirst());
11     }
12 
13     /*
14      * 字节比较
15      * arg0,arg3为要比较的两个字节数组
16      * arg1,arg2表示第一个字节数组要进行比较的收尾位置，arg4,arg5表示第二个
17      * 从第一个字节比到组合key中second的前一个字节，因为second为int型，所以长度为4
18      */
19     public int compare(byte[] arg0, int arg1, int arg2, byte[] arg3, int arg4, int arg5) {
20         return WritableComparator.compareBytes(arg0, 0, arg2-4, arg3, 0, arg5-4);
21     }
22 }

map关键代码

 1 private PairWritable mapOutKey = new PairWritable();
 2       private IntWritable mapOutValue = new IntWritable();
 3       public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
 4           String lineValue = value.toString();
 5           String[] strs = lineValue.split("\t");
 6 
 7           //设置组合key和value ==> <(key,value),value>
 8           mapOutKey.set(strs[0], Integer.valueOf(strs[1]));
 9           mapOutValue.set(Integer.valueOf(strs[1]));
10 
11           context.write(mapOutKey, mapOutValue);
12       }

reduce关键代码

 1 private Text outPutKey = new Text(); 
 2       public void reduce(PairWritable key, Iterable<IntWritable> values, Context context)
 3               throws IOException, InterruptedException {
 4           //迭代输出
 5           for(IntWritable value : values) {
 6               outPutKey.set(key.getFirst());
 7               context.write(outPutKey, value);
 8           }
 9 
10       }

输出结果：

原理：

在map阶段：

使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites，同时InputFormat提供一个RecordReder的实现。

本例子中使用的是TextInputFormat，他提供的RecordReder会将文本的一行的行号作为key，这一行的文本作为value。这就是自定义Map的输入是<LongWritable, Text>的原因。

然后调用自定义Map的map方法，将一个个<LongWritable, Text>对输入给Map的map方法。注意输出应该符合自定义Map中定义的输出<IntPair, IntWritable>。最终是生成一个List<IntPair, IntWritable>。

在map阶段的最后，会先调用job.setPartitionerClass对这个List进行分区，每个分区映射到一个reducer。每个分区内又调用job.setSortComparatorClass设置的key比较函数类排序。

可以看到，这本身就是一个二次排序。如果没有通过job.setSortComparatorClass设置key比较函数类，则使用key的实现的compareTo方法。

在reduce阶段：

reducer接收到所有映射到这个reducer的map输出后，也是会调用job.setSortComparatorClass设置的key比较函数类对所有数据对排序。

然后开始构造一个key对应的value迭代器。这时就要用到分组，使用jobjob.setGroupingComparatorClass设置的分组函数类。

只要这个比较器比较的两个key相同，他们就属于同一个组，它们的value放在一个value迭代器，而这个迭代器的key使用属于同一个组的所有key的第一个key。

最后就是进入Reducer的reduce方法，reduce方法的输入是所有的（key和它的value迭代器）。同样注意输入与输出的类型必须与自定义的Reducer中声明的一致。

本文转自SummerChill博客园博客，原文链接：http://www.cnblogs.com/DreamDrive/p/7693452.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/376358

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

一. MR中的join的两种方式： 1.reduce side join(面试题) reduce side join是一种最简单的join方式，其主要思想如下：在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value对，对每条数据打一个标签（tag）,比如：tag=1表示来自文件File1，tag=2表示来自文件File2。即：map阶段的主要任务是对不同文件中的数据打标签,在shuffle阶段已经自然按key分组. 在reduce阶段，reduce函数获取相同k2的v2 list（v2来自File1和File2），然后对于同一个key，对File1和File2中的数据进行join（笛卡尔乘积）。即：reduce阶段进行实际的连接操作。这种方法有2个问题： 1, map阶段没有对数据瘦身，shuffle的网络传输和排序性能很低。 2, reduce端对2个集合做乘积计算，很耗内存，容易导致OOM。我关于reduce side join的博文总结地址：http://www.cnblogs.com/DreamDrive/p/7692042....

2017-11-12

568

hive中解决中文乱码

一.个人初始开发环境的基本情况以及Hive元数据库说明 ①hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置) ②hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://crxy99:3306/hive_cz3q?createDatabaseIfNotExist=true ③普通情况下咱们的mysql默认编码是latin1,但是我们在日常开发中大多数情况下需要用到utf-8编码,如果是默认latin1的话,咱们的中文存储进去容易乱码,所以说大家在遇到一些数据乱码的情况话,最好把mysql的编码改成utf-8. 但是在这里要非常严重强调的一点:hive的元数据metastore在mysql的数据库,不管是数据库本身,还是里面的表编码都必须是latin1(CHARACTER SET latin1 COLLATE latin1_bin)!!!!! 验证方式:(可以通过客户端软件在数据库上右键属性查看,也可以通过命令查看) mysql> show create database hive_cz3q; +-----------+-----...

2017-11-12

569

发表评论

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。