MaxCompute小文件问题优化方案
小文件背景知识
小文件定义
分布式文件系统按块Block存放,文件大小比块大小小的文件(默认块大小为64M),叫做小文件。
如何判断存在小文件数量多的问题
查看文件数量
desc extended + 表名
判断小文件数量多的标准
1、非分区表,表文件数达到1000个,文件平均大小小于64M
2、分区表: a) 单个分区文件数达到1000个,文件平均大小小于64M,
b) 整个非分区表分区数达到五万 (系统限制为6万)
产生小文件数量多的主要原因
1、表设计不合理导致:分区多导致文件多,比如按天按小时按业务单元(假如有6个业务单元BU)分区,那么一年下来,分区数将会达到365246=52560。
2、在使用Tunnel、Datahub、Console等数据集成工具上传上传数据时,频繁Commit,写入表(表分区)使用不合理
