【Spark】Spark常见问题汇总
【架构】 Spark采用了分布式计算中的Master-Slave模型。【1】Master作为整个集群的控制器,负责整个集群的正常运行;【2】Worker是计算节点,接受主节点命令以及进行状态汇报;【3】Executor负责任务(Tast)的调度和执行;【4】Client作为用户的客户端负责提交应用;【5】Driver负责控制一个应用的执行。Spark集群启动时,需要从主节点和从节点分别启动Master进程和Worker进程,对整个集群进行控制。在一个Spark应用的执行过程中,Driver是应用的逻辑执行起点,运行Application的main函数并创建SparkContext,DAGScheduler把对Job中的RDD有向无环图根据依赖关系划分为多个Stage,每一个Stage是一个TaskSet, TaskScheduler把Task分发给Worker中的Executor;Worker启动Executor,Executor启动线程池用于执行Task。 【RDD】 RDD:弹性分布式数据集,是一种内存抽象,可以理解为一个大数组,数组的元素是RDD的分区Partition,分布在集...