hive中的mapjoin
在Hive中,common join是很慢的,如果我们是一张大表关联多张小表,可以使用mapjoin加快速度。 mapjoin主要有以下参数: hive.auto.convert.join : 是否自动转换为mapjoin hive.mapjoin.smalltable.filesize : 小表的最大文件大小,默认为25000000,即25M hive.auto.convert.join.noconditionaltask : 是否将多个mapjoin合并为一个 hive.auto.convert.join.noconditionaltask.size : 多个mapjoin转换为1个时,所有小表的文件大小总和的最大值。 例如,一个大表顺序关联3个小表a(10M), b(8M),c(12M),如果hive.auto.convert.join.noconditionaltask.size的值: 1.小于18M,则无法合并mapjoin,必须执行3个mapjoin; 2.大于18M小于30M,则可以合并a和b表的mapjoin,所以只需要执行2个mapjoin; 3.大于30M,则可以将...