MapReduce中使用SequenceFile的方式上传文件到集群中-低调大师

MapReduce中使用SequenceFile的方式上传文件到集群中

2017-11-19 582

HDFS上不适合存储小文件,因为如果有很多的小文件,上传到HDFS集群,每个文件都会对应一个block块,一个block块的大小默认是128M,对于很多的小文件来说占用了非常多的block数量,就会影响到内存的消耗,

MapReduce处理这些文件的话也是需要很多的Map来处理.

HDFS提供的小文件的解决方案可以使用SequenceFile和MapFile:

如果存在大量的小数据文件，可以使用SequenceFile.

同时使用SequenceFile还可以用SequenceFile自带的一些压缩算法来减少这些细小文件的占用空间.

1.使用SequenceFile相关代码把本地Windows上的很多小文件上传到HDFS集群.

 1 package seq;
 2 
 3 import java.io.File;
 4 import java.net.URI;
 5 
 6 import org.apache.commons.io.FileUtils;
 7 import org.apache.hadoop.conf.Configuration;
 8 import org.apache.hadoop.fs.FileSystem;
 9 import org.apache.hadoop.fs.Path;
10 import org.apache.hadoop.io.BytesWritable;
11 import org.apache.hadoop.io.SequenceFile;
12 import org.apache.hadoop.io.Text;
13 
14 public class Test2 {
15     public static void main(String[] args) throws Exception {
16         Configuration conf = new Configuration();
17         org.apache.hadoop.fs.FileSystem fs = FileSystem.newInstance(new URI("hdfs://crxy99:9000"),conf);
18         Path out = new Path("/members.seq");//输出到HDFS的根目录下"/" 文件命名为memebers.seq
19         SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf, out, Text.class, BytesWritable.class);//文件名作为key 类型是Text  文件内容作为值上传上去,类型是BytesWritable
20 
21         File localDir = new File("F:\\360Downloads\\crxy\\video\\2016-05-10【mapreduce】 - 副本\\members2000");
22         for (File file : localDir.listFiles()) {
23             Text key = new Text(file.getName());
24             BytesWritable val = new BytesWritable(FileUtils.readFileToByteArray(file));
25             writer.append(key, val);
26             System.out.println(file.getName());
27         }
28         writer.close();
29     }    
30 }

程序运行之后查看HDFS目录:

通过Web浏览HDFS集群可以看到members.seq文件的大小是126.54MB....只占用一个block.

上传的是一个在Windows本地的members的文件. Windows本地用户是ABC.

2.使用SequenceFile的block和record压缩算法进行上传文件的相关代码:

 1 import java.io.File;
 2 import java.net.URI;
 3 
 4 import org.apache.commons.io.FileUtils;
 5 import org.apache.hadoop.conf.Configuration;
 6 import org.apache.hadoop.fs.FSDataOutputStream;
 7 import org.apache.hadoop.fs.FileSystem;
 8 import org.apache.hadoop.fs.Path;
 9 import org.apache.hadoop.io.BytesWritable;
10 import org.apache.hadoop.io.IOUtils;
11 import org.apache.hadoop.io.SequenceFile;
12 import org.apache.hadoop.io.SequenceFile.CompressionType;
13 import org.apache.hadoop.io.Text;
14 import org.apache.hadoop.io.compress.GzipCodec;
15 
16 public class Test1 {
17     public static void main(String[] args) throws Exception {
18         Configuration conf = new Configuration();
19         org.apache.hadoop.fs.FileSystem fs = FileSystem.newInstance(new URI("hdfs://crxy99:9000"),conf);
20         CompressionType type = null;
21         if("record".equals(args[0])){
22             type = CompressionType.RECORD;
23         }
24         if("block".equals(args[0])){
25             type = CompressionType.BLOCK;
26         }
27         FSDataOutputStream out = fs.create(new Path(args[1]));
28         SequenceFile.Writer writer = SequenceFile.createWriter(conf, out, Text.class, BytesWritable.class,type,new GzipCodec());
29         
30         File localDir = new File("/usr/local/hadoop_repo/files/members2000");
31         for (File file : localDir.listFiles()) {
32             Text key = new Text(file.getName());
33             BytesWritable val = new BytesWritable(FileUtils.readFileToByteArray(file));
34             writer.append(key, val);
35             System.out.println(file.getName());
36         }
37         writer.close();
38         IOUtils.closeStream(out);
39     }    
40 }

结果仍然如上图,文件占用的空间更小.

本文转自SummerChill博客园博客，原文链接：http://www.cnblogs.com/DreamDrive/p/5500112.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/376527

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Elasticsearch之IKAnalyzer的过滤停止词

它在哪里呢？非常重要！ [hadoop@HadoopMaster custom]$ pwd /home/hadoop/app/elasticsearch-2.4.3/plugins/ik/config/custom [hadoop@HadoopMaster custom]$ ll total 5252 -rw-r--r--. 1 hadoop hadoop 156 Dec 14 10:34ext_stopword.dic -rw-r--r--. 1 hadoop hadoop 130 Dec 14 10:34 mydict.dic -rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word.dic -rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word_full.dic -rw-r--r--. 1 hadoop hadoop 10855 Dec 14 10:34 single_word_low_freq.dic -rw-r--r--. 1 hadoop hadoop...

2017-11-20

544

1.概述本课程的视频教程地址：《用户行为分析之编码实践》本课程以用户行为分析案例为基础，带着大家去完成对各个KPI的编码工作，以及应用调度工作，让大家通过本课程掌握Hadoop项目的编码、调度流程。下面我们来看看本课程有哪些课时，如下图所示：首先，我们来学习第一课时：《Hadoop项目基础代码》。 2.内容 2.1 Hadoop项目基础代码本课时介绍编写Hadoop基础代码及脚本，在前面搭建好的Hadoop项目工程上，完成项目的基本代码的编写，以及一些注意事项，为编写核心代码做准备，让大家掌握Hadoop项目的基础代码开发。本课时主要包含以下知识点，如下图所示：下面，我为大家介绍Hadoop项目工程的基本信息配置，由于本课程属于编码实践，所以设计到编码的相关流程。所以大家在学习的时候，请事先将集群启动，IDE打开。下面我给大家演示如下内容，他们分别是：项目工程的相关配置信息（pom文件的依赖配置，log日志信息的配置）集群信息的相关配置（连接集群节点路径信息）基础代码实现包含的内容，如下图所示：具体演示细节，大家可以观看视频，这里我就不多做赘述了。《观看地址》 ...

2017-11-20

525

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。