MapReduce开发技巧-低调大师

MapReduce开发技巧

2016-03-17 600

数据类型的选择

自定义数据类型

参考：Hadoop提交作业自定义排序和分组

MapWritable/SortedMapWritable

Hadoop中可传输的Map集合，和Java中的Map用法差不多，但是可以用与mapper和reducer之间的数据传输

Map输出不同类型的Value

使用自定义的数据类型继承自GenericWritable可以实现在mapper中输出多个不同类型的value

//使用这个数据类型将可以输出IntWritable和Text两种类型的value
public class MultiValueWritable extends GenericWritable{
    private static Class[] CLASSES = new Class{
        IntWritable.class,
        Text.class
    }

    public MultiValueWritable(){
    }

    public MultiValueWritable(Writable value){
        set(value);
    }

    protected Class[] getTypes(){
        return CLASSES;
    }
}

mapper中context.write的时候可以使用如下的格式：

context.write(key,new MultiValueWritable(new Text("1")));
context.write(key,new MultiValueWritable(IntWritable Text(1)));

reducer的Values迭代器中可以通过这种方式来判断value是那种数据类型：

Writable value = value.get();
if(value instanceof Text){
    ...
}

选择合适的InputFormat/OutputFormat

基本上每个InputFormat都会有一个对应的OutputFormat

TextInputFormat

默认的输入格式，按行读取，key为每行偏移量，value为行的内容

NLineInputFormat

可以指定一次数据文件多少行的内容：

//设置一次读取50行的内容
NLineInputFormat.setNumLinesPerSplit(job,50);

SequenceFileInputFormat

输入的格式为keylen,key,valuelen,value，适合用于多个job之间的数据连接

DBInputFormat

处理数据库输入，待使用测试

自定义的InputFormat

参考：自定义分片策略解决大量小文件问题

同时处理不同类型的输入

参考：多个Mapper和Reducer处理多个输入

Partitioner的选择

TotalOrderPartitioner

对所有reducer中的结果进行排序，默认情况下每个reducer中的内容都是各自排序互不影响的

自定义partitioner

参考：Hadoop作业中自定义分区和归约

KeyFieldBasedPartitioner

在分区的时候mapper的key部分会参与计算
配合参数

map.output.key.field.separator
num.key.fields.for.partition

指定分隔符和要参与分区的字符索引

例如：key=”name-price”，指定map.output.key.field.separator=”-“,num.key.fields.for.partition=1表示key的price部分参与分区计算

二次排序

setSortComparatorClass

map中每个分区调用进行排序，reduce中shuffle之后再次调用

setGroupingComparatorClass

第二次排序，属于同一组的顺序记录并放入同一个value迭代器

分布式缓存的使用

参考：MapReduce中的DistributedCache

作者：@小黑

微信关注我们

原文链接：https://yq.aliyun.com/articles/667754

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

ElasticSearch入门第三篇：索引

这是ElasticSearch 2.4 版本系列的第三篇： ElasticSearch入门第一篇：Windows下安装ElasticSearch ElasticSearch入门第二篇：集群配置 ElasticSearch入门第三篇：索引 ElasticSearch入门第四篇：使用C#添加和更新文档 ElasticSearch入门第五篇：使用C#查询文档 ElasticSearch入门第六篇：复合数据类型——数组，对象和嵌套 ElasticSearch入门第七篇：分析器 ElasticSearch入门第八篇：存储 ElasticSearch入门第九篇：实现正则表达式查询的思路 ElasticSearch是文档型数据库，索引（Index）定义了文档的逻辑存储和字段类型，每个索引可以包含多个文档类型，文档类型是文档的集合，文档以索引定义的逻辑存储模型，比如，指定分片和副本的数量，配置刷新频率，分配分析器等，存储在索引中的海量文档分布式存储在ElasticSearch集群中。 ElasticSearch是基于Lucene框架的全文搜索引擎，将所有文档的信息写入到倒排索引（I...

2016-03-17

734

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/50922812 MapReduce原理要知道怎么对MapReduce作业进行调优前提条件是需要对Map-Reduce的过程了然于胸。 Map-Reduce运行原理图： Map Side 1.从磁盘读取数据并分片默认每个block对应一个分片，一个map task 2.进行map处理运行自定义的map业务过程 3.输出数据到缓冲区中 map输出的数据并不是直接写入磁盘的，而是会先存储在一个预定义的buffer中 4、分区、排序分组的过程对map输出的数据进行分区，按照key进行排序和分组 5、归约（可选）相当于本地端的reduce过程 6、合并写入磁盘对map的最终数据进行merge之后输出到磁盘中等待shuffle过程 Reduce side 1.从map端复制数据 2.对数据进行合并以上两个步骤即为shuffle过程 3.对数据进行排序 4.进行reduce操作 5.输出到磁盘详细的过程将会在调优技巧中体现出来 ...

2016-03-17

764

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。