Spark源码分析之一：Job提交运行总流程概述-低调大师

Spark源码分析之一：Job提交运行总流程概述

2016-02-13 572

Spark是一个基于内存的分布式计算框架，运行在其上的应用程序，按照Action被划分为一个个Job，而Job提交运行的总流程，大致分为两个阶段：

1、Stage划分与提交

（1）Job按照RDD之间的依赖关系是否为宽依赖，由DAGScheduler划分为一个个Stage，并将每个Stage提交给TaskScheduler；

（2）Stage随后被提交，并由TaskScheduler将每个stage转化为一个TaskSet；

2、Task调度与执行：由TaskScheduler负责将TaskSet中的Task调度到Worker节点的Executor上执行。

而对于第一阶段Stage划分与提交，又主要分为三个阶段：

1、Job的调度模型与运行反馈；

2、Stage划分；

3、Stage提交：对应TaskSet的生成。

下面，就以图及部分源码，概略介绍下以上三个阶段。

一、Job的调度模型与运行反馈

1、首先由DAGScheduler负责将Job提交到事件队列eventProcessLoop中，等待调度执行

该事件队列为DAGSchedulerEventProcessLoop类型，内部封装了一个BlockingQueue阻塞队列，并由一个后台线程eventThread不断的调用onReceive()方法处理其中的事件；

2、创建一个JobWaiter对象并返回给客户端

利用这个JobWaiter对象的awaitResult()方法对Job进行监控与运行反馈，并获得JobSucceeded和JobFailed两种Job运行结果；

3、DAGSchedulerEventProcessLoop的onReceive()方法处理事件

onReceive()方法继续调用doOnReceive(event)方法，然后根据传入的事件类型DAGSchedulerEvent决定调用哪个方法处理事件，这里传入的是JobSubmitted事件，调用的是DAGScheduler的handleJobSubmitted()方法，继而进入下一个阶段。

整个处理流程如下图所示：

二、Stage划分

在第一阶段将JobSubmitted事件提交到事件队列后，DAGScheduler的handleJobSubmitted()方法就开始了Stage的划分。

首先，根据finalRDD获取其Parent Stages，即ShuffleMapStage列表；

然后，利用finalRDD生成最后一个Stage，即ResultStage；

最后，生成ActiveJob对象，并维护各种stage、job等数据结构。

整个处理流程如下图所示：

三、Stage提交：对应TaskSet的生成

首先，提交finalStage；

然后，提交其parent Stage，如果对应parent Stage还存在尚未提交的parent Stage，提交之；

最好，对于没有parent Stage的Stage，根据stage中rdd的分区，生成tasks，即TaskSet，创建TaskSetManager，并由SchedulerBackend申请资源。

整个处理流程如下图所示：

未完待续，明天继续~

微信关注我们

原文链接：https://yq.aliyun.com/articles/245756

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

大数据技能修炼的个人道场

版权声明：本文为半吊子子全栈工匠（wireless_com，同公众号)原创文章，未经允许不得转载。 https://blog.csdn.net/wireless_com/article/details/50663978 大数据技术火热而且火爆，学习大数据的课程和资料也泛滥如潮，而大数据研发环境又不是随便就可以搭建起来的，如何有一个自己随时可用的大数据修炼道场呢？网上有很多hadoop单机版的搭建教程，但大多是基础组件，如果想窥探Hadoop 的整个生态系统，并建立一个人的大数据环境，从而修炼大数据的各种技术，我觉得非 HDP 的Sandbox 莫属了。 HDP 的Sandbox 是一个基于虚拟机的单节点hadoop集群，相当于一个伪分布式环境，学习和使用都非常的轻松便捷。虚拟机既支持VMware也支持VirtualBox，完全可以在windows和mac 上无缝执行，需要注意的是需要64位的主机多核cpu并支持虚拟化。以virtualbox为例，三步，只需三步，就可以搭建自己修炼大数据技术的环境了。 1）先去下载安装virtualbox， https://www.virtualbo...

2016-02-14

710

上次见到（膜拜）Hadoop之父Doug Cutting是在2年前，2014中国大数据技术大会上。今年Hadoop10岁，刚看到他的Hadoop十周年贺词，感觉时间飞逝。最近CSDN和InfoQ都在制作Hadoop选题。云栖社区也找到不少阿里Hadoop生态高手，2-3月会做多场实时在线培训。大家想听什么，告诉我们。 Doug Cutting成长史 2013年时，CSDN曾有文章详细介绍了Hadoop之父Doug Cutting。直到现在，再次阅读还是深有体会。要知道，1985年毕业于美国斯坦福大学的Cutting并不是一开始就决心投身IT行业的。在大学时代的头两年，Cutting学习了诸如物理、地理等常规课程。因为学费的压力，Cutting开始意识到，自己必须学习一些更加实用、有趣的技能。这样，一方面可以帮助自己还清贷款，另一方面，

2016-02-15

729

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。