Spark Shuffle过程分析:Map阶段处理流程
默认配置情况下,Spark在Shuffle过程中会使用SortShuffleManager来管理Shuffle过程中需要的基本组件,以及对RDD各个Partition数据的计算。我们可以在Driver和Executor对应的SparkEnv对象创建过程中看到对应的配置,如下代码所示: //Lettheuserspecifyshortnamesforshufflemanagers valshortShuffleMgrNames=Map( "sort"->classOf[org.apache.spark.shuffle.sort.SortShuffleManager].getName, "tungsten-sort"->classOf[org.apache.spark.shuffle.sort.SortShuffleManager].getName) valshuffleMgrName=conf.get("spark.shuffle.manager","sort") valshuffleMgrClass=shortShuffleMgrNames.getOrElse(shuffl...