Hadoop 统计单词字数的例子-低调大师

Hadoop 统计单词字数的例子

2017-11-14 597

hadoop 的核心还是 Map-Reduce过程和 hadoop分布式文件系统

第一步：定义Map过程

/**
*
* Description:
*
* @author charles.wang
* @created Mar 12, 2012 1:41:57 PM
*
*/
public class MyMap extends Mapper<Object, Text, Text, IntWritable> {
private static final IntWritable one = new IntWritable(1);
private Text word;
public void map(Object key ,Text value,Context context)
throws IOException,InterruptedException{
String line=value.toString();
StringTokenizer tokenizer = new StringTokenizer(line);
while(tokenizer.hasMoreTokens()){
word = new Text();
word.set(tokenizer.nextToken());
context.write(word, one);
}
}
}

第二步：定义 Reduce 过程

/**
*
* Description:
*
* @author charles.wang
* @created Mar 12, 2012 1:48:18 PM
*
*/
public class MyReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
public void reduce (Text key,Iterable<IntWritable> values,Context context)
throws IOException ,InterruptedException{
int sum=0;
for(IntWritable val: values){
sum+=val.get();
}
context.write(key, new IntWritable(sum));
}
}

编写一个Driver 来执行Map-Reduce过程

public class MyDriver {
public static void main(String [] args) throws Exception{
Configuration conf = new Configuration();
conf.set("hadoop.job.ugi", "root,root123");
Job job = new Job(conf,"Hello,hadoop! ^_^");
job.setJarByClass(MyDriver.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
job.setMapperClass(MyMap.class);
job.setCombinerClass(MyReduce.class);
job.setReducerClass(MyReduce.class);
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job,new Path(args[1]));
job.waitForCompletion(true);
}
}

本文转自 charles_wang888 51CTO博客，原文链接：http://blog.51cto.com/supercharles888/840723，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/428430

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop集群(五) Hive安装

作为一个多年的DBA，hadoop家族中，最亲切的产品就是hive了。毕竟SQL的使用还是很熟悉的。再也不用担心编写Mapreducer的痛苦了。首先还是简单介绍一下Hive吧 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性，因此使用Hive构建的数据仓库也秉承了这些特性。简单来说，Hive就是在Hadoop上架了一层SQL接口，可以将SQL翻译成MapReduce去Hadoop上执行，这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析，而不必使用编程语言开发MapReduce那么麻烦。下面开始Hive的安装, 安装hive的前提，是hdfs，yarn已经安装完成并启动。hdfs安装，可以参考 Hadoop集群(一) Zookeeper搭建 Hadoop集群(二) HDFS搭建 Hadoop集群(三) Hbase搭建 Hive软件的下载，我使用版本是hive-1.2.1，现在已经无法下载了。大家可以根据需要下载新版本。http://hive.apache.org/downloads.html ...

2017-11-15

707

说下遇到的另外一个CASE：在排查一个线上问题的过程中发现callqueue这几天出现了spike：继续查看发现最近的waiting_maps数和spike非常match 进而通过grace定位到了一个具体业务的Hive清洗Job：发现这个Hive表A有大量的小文件（最大的才16MB），这个表A是通过对一个外部表B以insert select方式生成的，而hive.merge.smallfiles.avgsize是默认值（16MB），所以在生成后map也只是最大merge到了16MB左右；将hive.merge.smallfiles.avgsize修改为dfs.block.size，同时将当前这个查询表A的Job加上了set mapred.min.split.size=dfs.block.size*2; setmapred.min.split.size.per.node= dfs.block.size*2；set mapred.min.split.size.per.rack= dfs.block.size*2重跑，果然在不降低运行时间的基础上把MAP数大大降低了；本文转自MIKE...

2017-11-15

568

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。