Hadoop中基于文件的数据格式(1)SequenceFile
1 概述 1 SequenceFile是Hadoop为例存储二进制的<k,v>而设计的一种平面文件。 2 SequenceFile的key和value是writable或者writable子类。 3 SequenceFile的存储不按照key排序,内部类Writer提供了append方法。 4 SequenceFile作为一个容器,可以将小文件打包到SequenceFile,高效对小文件进行存储和处理。 2 压缩类型 根据CompressionType的不同,有如下压缩类型 NONE:不压缩。每个记录有key长度、value长度、key、value组成,长度字段分别为4字节。 RECORD: 记录压缩。结构与NONE非常类似,用定义在头部的编码器压缩value,key不压缩。 BLOCK:块压缩。一次压缩多条记录,当记录字节数达到一个阈值则天际到块,io.seqfile.compress.blocksize控制。格式为:记录数,键长度,键,值长度,值。 分别对应Writer: Writer : Uncompressed recordsRecordCompressWriter...