Compression压缩
压缩所带来的好处,磁盘、IO,都来带来很多好处,同时也有很多的弊端。 查看自己的hadoop机器是否支持压缩命令 ./hadoop checknatice 如果压缩格式后面全是false,说明Hadoop是没有编译过的。 生产环境经常用的集中压缩 gzip 、 bzip2 、LZO、Snappy 先来看下他们之间的区别,主要体现在压缩比率、压缩与解压速度、是否支持分割等方面 Format extention 压缩比到 是否支持分割 Gzip .gz 40% NO Bzip2 .bz2 30% yes LZO .lzo 50% yes if indexed(前提是有索引) Snappy .snappy 50% NO 而对于我们刚刚说的速度问题,压缩比越高,压缩速度就越慢,成反比,这里就不在列图了。 下面来看下为什么要看是否支持分割呢,我们知道不管是mapreduce还是spark都会有map和reduce还有shuffer的过程, 假如一个1G的文件使用Gzip压缩后,大概是400M左右,执行mapre...