从MapReduce的执行来看如何优化MaxCompute(原ODPS) SQL
SQL基础有这些操作(按照执行顺序来排列): from join(left join, right join, inner join, outer join ,semi join) where group by select sum distinct count order by 如果我们能理解mapreduce是怎么实现这些SQL中的基本操作的,那么我们将很容易理解怎么优化SQL写法。接下来我们一个一个的谈: from 这个操作是在解析过程中就完成了,目的就是找出输入的表(文件)。 join(left join, right join, inner join, outer join ,semi join) 这个操作需要在参与map和reduce整个阶段。下图给出了各个阶段的数据输入输出变化: 假如执行这个SQL:select student_id, s