Compression压缩
压缩所带来的好处,磁盘、IO,都来带来很多好处,同时也有很多的弊端。
查看自己的hadoop机器是否支持压缩命令 ./hadoop checknatice
如果压缩格式后面全是false,说明Hadoop是没有编译过的。
生产环境经常用的集中压缩 gzip 、 bzip2 、LZO、Snappy
先来看下他们之间的区别,主要体现在压缩比率、压缩与解压速度、是否支持分割等方面
Format extention 压缩比到 是否支持分割
Gzip .gz 40% NO
Bzip2 .bz2 30% yes
LZO .lzo 50% yes if indexed(前提是有索引)
Snappy .snappy 50% NO
而对于我们刚刚说的速度问题,压缩比越高,压缩速度就越慢,成反比,这里就不在列图了。
下面来看下为什么要看是否支持分割呢,我们知道不管是mapreduce还是spark都会有map和reduce还有shuffer的过程,
假如一个1G的文件使用Gzip压缩后,大概是400M左右,执行mapreduce任务时,只有会生成一个task,因为不支持分割。
假如一个1G的文件使用Bzip压缩后,大概是300M左右,执行mapreduce任务时,会按照128M生成3个task,因为支持分割,
就是说压缩后,所有不支持分片的,都只能由一个task去执行。
所以在选择压缩比、压缩时间、是否分割等方面,都要做到权衡。
下面来看下压缩在hadoop的中是用,通过配置就可以了
hadoop中压缩的配置使用
core-site.xml
<property>
<name>io.compression.codecs</name>
<value>
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec,
</value>
</property>
MapReduce中mapred-site.xml
<property>
<name>mapreduce.output.fileoutputformat.compress</name>
<value>true</value>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.codec</name>
<value>org.apache.hadoop.io.compress.BZip2Codec</value>
</property>
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
中国HBase技术社区第四届MeetUp上海站——HBase应用实践专场
中国HBase技术社区第四届MeetUp——HBase应用实践专场 HBase—Hadoop Database是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase的特点是高可靠性、高性能、面向列、可伸缩的分布式存储系统,如今HBase已经广泛应用于各互联网行业。那么我们如何熟练掌握HBase技术及应用呢? 2018年9月8号,由中国HBase技术社区、DataFun社区主办的中国第四届HBase Meetup将来到上海,届时来自上海久耶、携程、阿里云等公司HBase的专家们,将为大家分享HBase技术的相关应用实践。 主办方:中国HBase技术社区、DataFun社区 联合主办方:COCOSPACE 合作伙伴:极客邦科技、掘金社区 视频支
- 下一篇
阿里云 DataLakeAnalytics 团队招人啦!
团队介绍 我们是阿里巴巴集团数据库事业部的OLAP 平台团队,我们专注于提供全球领先的全栈式大规模OLAP产品,目前在阿里集团、公共云、专有云提供了分析型数据库AnalyticDB、时间序列数据库HiTSDB, 数据湖分析引擎: DataLakeAnalytics 等多个产品,得到了大规模应用。每天数据写入记录数在万亿级,查询请求十亿级。 岗位描述 在Data Lake Analytics团队,如果你追求技术,你是幸运的,因为在这里,你接触的面很广,云计算的各层技术,从IaaS、PaaS、DBasS、SaaS到FaaS,从网络、存储、计算到虚拟化,或用、或优化、或设计、或开发,你不会out!数据库的多个方面,从JDBC protocol、SQL parser、optimizer、MPP runtime execution到meta st
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Hadoop3单机部署,实现最简伪集群
- MySQL8.0.19开启GTID主从同步CentOS8