MapReduce编程实例之自定义排序
任务描述:
给出一组数据,自定义排序的样式,第一列降序,相同时第二列升序
example Data:
2013 1
2013 5
2014 5
2014 8
2015 9
2015 4
Code:
package mrTest; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.WritableComparable; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class zidingyiSort { public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { // TODO Auto-generated method stub Job job = new Job(); job.setJarByClass(zidingyiSort.class); // 1 FileInputFormat.setInputPaths(job, new Path(args[0])); // 2 job.setMapperClass(Map.class); job.setMapOutputKeyClass(MyK2.class); job.setMapOutputValueClass(LongWritable.class); // 3 // 4 // 5 job.setNumReduceTasks(1); // 6 job.setReducerClass(Reduce.class); job.setOutputKeyClass(LongWritable.class); job.setOutputValueClass(LongWritable.class); // 7 FileOutputFormat.setOutputPath(job, new Path(args[1])); // 8 System.exit(job.waitForCompletion(true)? 0 :1 ); } public static class Map extends Mapper<Object, Text, MyK2, LongWritable>{ public void map(Object key, Text value, Context context) throws IOException, InterruptedException{ String line = value.toString(); String[] split = line.split("\t"); MyK2 my = new MyK2(Long.parseLong(split[0]), Long.parseLong(split[1])); context.write(my, new LongWritable(1)); } } public static class Reduce extends Reducer<MyK2, LongWritable, LongWritable, LongWritable>{ public void reduce(MyK2 key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException{ context.write(new LongWritable(key.myk2), new LongWritable(key.myv2)); } } public static class MyK2 implements WritableComparable<MyK2>{ public long myk2; public long myv2; MyK2(){} MyK2(long myk2, long myv2){ this.myk2 = myk2; this.myv2 = myv2; } @Override public void readFields(DataInput in) throws IOException { // TODO Auto-generated method stub this.myk2 = in.readLong(); this.myv2 = in.readLong(); } @Override public void write(DataOutput out) throws IOException { // TODO Auto-generated method stub out.writeLong(myk2); out.writeLong(myv2); } @Override public int compareTo(MyK2 myk2) { // TODO Auto-generated method stub //myk2之差>0 返回-1 <0 返回1 代表 myk2列降序 //myk2之差<0 返回-1 >0 返回1 代表 myk2列升序 long temp = this.myk2 - myk2.myk2; if(temp>0) return -1; else if(temp<0) return 1; //控制myv2升序 return (int)(this.myv2 - myk2.myv2); } } }效果展示:
2015 4
2015 9
2014 5
2014 8
2013 1
2013 5

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
MapReduce编程实例之自定义分区
任务描述: 一组数据,按照年份的不同将其分别存放在不同的文件里 example Data: 2013 1 2013 5 2014 5 2014 8 2015 9 2015 4 Code: package mrTest; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Partitioner; import org.apache.hadoop.mapreduce.Reducer; im...
- 下一篇
Yarn详解
问题导读: 1、什么是yarn? 2、Yarn 和MapReduce相比,它有什么特殊作用 ? 背景 Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer们还可以周期性的在已有的代码上进行修改,可是随着代码的增加以及原MapReduce框架设计的不足,在原MapReduce框架上进行修改变得越来越困难,所以MapReduce的committer们决定从架构上重新设计MapReduce,使下一代的MapReduce(MRv2/Yarn)框架具有更好的扩展性、可用性、可靠性、向后兼容性和更高的资源利用率以及能支持除了MapReduce计算框架外的更多的计算框架。 原MapReduce框架的不足 lJobTracker是集群事务的集中处理点,存在单点故障 lJobTracker需要完成的任务太多,既要维护job的状态又要维护job的task的状态,造成过多的资源消耗 l在taskTracker端,用map/reduce task作为资源...
相关文章
文章评论
共有0条评论来说两句吧...