mapreduce知识点记录

selfMapper extends Mapper< LongWritable, Text, Text, IntWritable> 

其中LongWritable是某一行起始位置相对于文件起始位置的偏移量

FileSplit

继承extends InputSplit

FileSplit fileSplit=(FileSplit) context.getInputSplit();

String pathname=fileSplit.getPath().getName();//获取目录名字

intdepth = fileSplit.getPath().depth();//获取目录深度

Class class1 = fileSplit.getClass();//获取当前类

longlength = fileSplit.getLength();//获取文件长度

SplitLocationInfo[] locationInfo = fileSplit.getLocationInfo();//获取位置信息

String[] locations = fileSplit.getLocations();//获取位置

longstart = fileSplit.getStart();//The position of the first byte in the file to process.

多文件输入与输出

1.多文件输入

FileInputFormat.setInputPaths()

方法:static void setInputPaths(Job job, Path... inputPaths)、

static void setInputPaths(Job job, String commaSeparatedPaths)

2.多文件输出(MultipleOutputs)

public static class AlphabetOutputFormat extends  MultipleOutputFormat {

@Override

protected String generateFileNameForKeyValue(Text key, IntWritable value, Configuration conf) {

charc = key.toString().toLowerCase().charAt(0);

if(c >='a'&& c <='z') {

returnc +".txt";

}

return"other.txt";

}

}

Combiner

作为map和reduce的中间环节,它的作用是聚合map task的磁盘,减少map端磁盘写入,减少reduce端处理的数据量,对于有大量shuffle的job来说,性能往往取决于reduce端。因为reduce 端要经过从map端copy数据、reduce端归并排序,最后才是执行reduce方法,此时如果可以减少map task输出将对整个job带来非常大的影响。

什么时候可以使用Combiner?

比如你的Job是WordCount,那么完全可以通过Combiner对map 函数输出数据先进行聚合,然后再将Combiner输出的结果发送到reduce端。

什么时候不能使用Combiner?

WordCount在reduce端做的是加法,如果我们reduce需求是计算一大堆数字的平均数,则要求reduce获取到全部的数字进行计算,才可以得到正确值。此时,是不能使用Combiner的,因为会其会影响最终结果。 注意事项:即使设置Combiner,它也不一定被执行(受参数min.num.spills.for.combine影响),所以使用Combiner的场景应保证即使没有Combiner,我们的MapReduce也能正常运行。

shuffle与排序

Mapreduce的map结束后,把数据重新组织,作为reduce阶段的输入,该过程称 之为shuffle---洗牌。

而数据在Map与Reduce端都会做排序。

Map

• Map 的输出是由collector控制的

• 我们从collect函数入手

Reduce

•reduce的Shuffle过程,分成三个阶段:复制Map输出、排序合并、reduce处理。

•主要代码在reduce的 run函数

JVM重用

启动JVM是一个比较耗时的工作,所以在MapReduce中有JVM重用的机制。

•条件是统一个作业的任务。

•可以通过mapred.job.reuse.jvm.num.tasks定义重用次数,如果属性是-1那么为无限制

StringTokenizer


1、构造函数。

1.StringTokenizer(String str):构造一个用来解析str的StringTokenizer对象。java默认的分隔符是“空格”、“制表符(‘\t’)”、“换行符(‘\n’)”、“回车符(‘\r’)”。

2.StringTokenizer(String str, String delim):构造一个用来解析str的StringTokenizer对象,并提供一个指定的分隔符。

3.StringTokenizer(String str, String delim, boolean returnDelims):构造一个用来解析str的StringTokenizer对象,并提供一个指定的分隔符,同时,指定是否返回分隔符。

2、方法。

说明:

1. 所有方法均为public;

2. 书写格式:[修饰符] <返回类型> <方法名([参数列表])>

如:

static int parseInt(String s) 表示:此方法(parseInt)为类方法(static),返回类型为(int),方法所需参数为String类型。

1.int countTokens():返回nextToken方法被调用的次数。如果采用构造函数1和2,返回的就是分隔符数量(例2)。

2.boolean hasMoreTokens():返回是否还有分隔符。

3.boolean hasMoreElements():结果同2。

4.String nextToken():返回从当前位置到下一个分隔符的字符串。

5.Object nextElement():结果同4。

6.String nextToken(String delim):与4类似,以指定的分隔符返回结果。

待续。。。。。。。。。。。。。。。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/556205

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。