mapreduce知识点记录-低调大师

mapreduce知识点记录

2016-11-28 792

selfMapper extends Mapper< LongWritable, Text, Text, IntWritable>

其中LongWritable是某一行起始位置相对于文件起始位置的偏移量

FileSplit

继承extends InputSplit

FileSplit fileSplit=(FileSplit) context.getInputSplit();

String pathname=fileSplit.getPath().getName();//获取目录名字

intdepth = fileSplit.getPath().depth();//获取目录深度

Class class1 = fileSplit.getClass();//获取当前类

longlength = fileSplit.getLength();//获取文件长度

SplitLocationInfo[] locationInfo = fileSplit.getLocationInfo();//获取位置信息

String[] locations = fileSplit.getLocations();//获取位置

longstart = fileSplit.getStart();//The position of the first byte in the file to process.

多文件输入与输出

1.多文件输入

FileInputFormat.setInputPaths()

方法：static void setInputPaths(Job job, Path... inputPaths)、

static void setInputPaths(Job job, String commaSeparatedPaths)

2.多文件输出（MultipleOutputs）

public static class AlphabetOutputFormat extends MultipleOutputFormat {

@Override

protected String generateFileNameForKeyValue(Text key, IntWritable value, Configuration conf) {

charc = key.toString().toLowerCase().charAt(0);

if(c >='a'&& c <='z') {

returnc +".txt";

}

return"other.txt";

}

}

Combiner

作为map和reduce的中间环节，它的作用是聚合map task的磁盘，减少map端磁盘写入，减少reduce端处理的数据量，对于有大量shuffle的job来说，性能往往取决于reduce端。因为reduce 端要经过从map端copy数据、reduce端归并排序，最后才是执行reduce方法，此时如果可以减少map task输出将对整个job带来非常大的影响。

什么时候可以使用Combiner？

比如你的Job是WordCount，那么完全可以通过Combiner对map 函数输出数据先进行聚合，然后再将Combiner输出的结果发送到reduce端。

什么时候不能使用Combiner？

WordCount在reduce端做的是加法，如果我们reduce需求是计算一大堆数字的平均数，则要求reduce获取到全部的数字进行计算，才可以得到正确值。此时，是不能使用Combiner的，因为会其会影响最终结果。注意事项：即使设置Combiner，它也不一定被执行（受参数min.num.spills.for.combine影响），所以使用Combiner的场景应保证即使没有Combiner，我们的MapReduce也能正常运行。

shuffle与排序

Mapreduce的map结束后，把数据重新组织，作为reduce阶段的输入，该过程称之为shuffle---洗牌。

而数据在Map与Reduce端都会做排序。

Map

• Map 的输出是由collector控制的

• 我们从collect函数入手

Reduce

•reduce的Shuffle过程，分成三个阶段：复制Map输出、排序合并、reduce处理。

•主要代码在reduce的 run函数

JVM重用

启动JVM是一个比较耗时的工作，所以在MapReduce中有JVM重用的机制。

•条件是统一个作业的任务。

•可以通过mapred.job.reuse.jvm.num.tasks定义重用次数，如果属性是-1那么为无限制

StringTokenizer

１、构造函数。

1.StringTokenizer(String str)：构造一个用来解析str的StringTokenizer对象。java默认的分隔符是“空格”、“制表符(‘\t’)”、“换行符(‘\n’)”、“回车符(‘\r’)”。

2.StringTokenizer(String str, String delim)：构造一个用来解析str的StringTokenizer对象，并提供一个指定的分隔符。

3.StringTokenizer(String str, String delim, boolean returnDelims)：构造一个用来解析str的StringTokenizer对象，并提供一个指定的分隔符，同时，指定是否返回分隔符。

２、方法。

说明：

1. 所有方法均为public；

2. 书写格式：［修饰符］　<返回类型> <方法名（［参数列表］）>

如：

static int parseInt(String s) 表示：此方法（parseInt）为类方法（static），返回类型为（int），方法所需参数为String类型。

1.int countTokens()：返回nextToken方法被调用的次数。如果采用构造函数1和2，返回的就是分隔符数量(例2)。

2.boolean hasMoreTokens()：返回是否还有分隔符。

3.boolean hasMoreElements()：结果同2。

4.String nextToken()：返回从当前位置到下一个分隔符的字符串。

5.Object nextElement()：结果同4。

6.String nextToken(String delim)：与4类似，以指定的分隔符返回结果。

待续。。。。。。。。。。。。。。。

微信关注我们

原文链接：https://yq.aliyun.com/articles/556205

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop-2.6.0NodeManager Restart Recover实现分析（二）

继上篇《Hadoop-2.6.0NodeManager Restart Recover实现分析（二）》。 4、NMLeveldbStateStoreService实现分析在 1）、initStorage() initStorage()方法中，完成了存储相关的初始化，如下： @Override protected void initStorage(Configuration conf) throws IOException { Path storeRoot = createStorageDir(conf); Options options = new Options(); options.createIfMissing(false); options.logger(new LeveldbLogger()); LOG.info("Using state database at " + storeRoot + " for recovery"); File dbfile = new File(storeRoot.toString()); try { db = JniDB...

2016-11-28

710

免费开通大数据服务：https://www.aliyun.com/product/odps 用Fluent实现MySQL到ODPS数据集成 ---可以通过Fluentd将其它系统数据利用DHS导入到ODPS中海量数据计算应该如何选择数据库 ---MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题官方文档-数据同步（RDS->MaxCompute）任务 --- MaxCompute 和 RDS 搭配为例介绍大数据应用同步方案 MaxCompute实战之数据存储 --- Fluentd日志采集技巧《海量日志数据分析与应用》之数据采集 ---用DataX采集数据技巧欢迎加入“数加·MaxCompute购买咨询”钉钉群（群号： 11782920）进行咨询，群二维码如下：

2016-11-28

918

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。