hive优化--增加减少map数
如何合并小文件,减少map数? 假设一个 SQL 任务: Select count(1) from popt_tbaccountcopy_mes where pt = ‘2012-07-04’; 该任务的 inputdir /group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2012-07-04 共有 194 个文件,其中很多是远远小于 128m 的小文件,总大小 9G ,正常执行会用 194 个 map 任务。 Map 总共消耗的计算资源: SLOTS_MILLIS_MAPS= 623,020 我通过以下方法来在 map 执行前合并小文件,减少 map 数: set mapred.max.split.size=100000000; set mapred.min.split.size.per.node=100000000; set mapred.min.split.size.per.rack=100000000; set hive.input.format=org.apache.hadoop.hive.ql.io....