Spark源码分析之一:Job提交运行总流程概述
Spark是一个基于内存的分布式计算框架,运行在其上的应用程序,按照Action被划分为一个个Job,而Job提交运行的总流程,大致分为两个阶段:
1、Stage划分与提交
(1)Job按照RDD之间的依赖关系是否为宽依赖,由DAGScheduler划分为一个个Stage,并将每个Stage提交给TaskScheduler;
(2)Stage随后被提交,并由TaskScheduler将每个stage转化为一个TaskSet;
2、Task调度与执行:由TaskScheduler负责将TaskSet中的Task调度到Worker节点的Executor上执行。
而对于第一阶段Stage划分与提交,又主要分为三个阶段:
1、Job的调度模型与运行反馈;
2、Stage划分;
3、Stage提交:对应TaskSet的生成。
下面,就以图及部分源码,概略介绍下以上三个阶段。
一、Job的调度模型与运行反馈
1、首先由DAGScheduler负责将Job提交到事件队列eventProcessLoop中,等待调度执行
该事件队列为DAGSchedulerEventProcessLoop类型,内部封装了一个BlockingQueue阻塞队列,并由一个后台线程eventThread不断的调用onReceive()方法处理其中的事件;
2、创建一个JobWaiter对象并返回给客户端
利用这个JobWaiter对象的awaitResult()方法对Job进行监控与运行反馈,并获得JobSucceeded和JobFailed两种Job运行结果;
3、DAGSchedulerEventProcessLoop的onReceive()方法处理事件
onReceive()方法继续调用doOnReceive(event)方法,然后根据传入的事件类型DAGSchedulerEvent决定调用哪个方法处理事件,这里传入的是JobSubmitted事件,调用的是DAGScheduler的handleJobSubmitted()方法,继而进入下一个阶段。
整个处理流程如下图所示:
二、Stage划分
在第一阶段将JobSubmitted事件提交到事件队列后,DAGScheduler的handleJobSubmitted()方法就开始了Stage的划分。
首先,根据finalRDD获取其Parent Stages,即ShuffleMapStage列表;
然后,利用finalRDD生成最后一个Stage,即ResultStage;
最后,生成ActiveJob对象,并维护各种stage、job等数据结构。
整个处理流程如下图所示:
三、Stage提交:对应TaskSet的生成
首先,提交finalStage;
然后,提交其parent Stage,如果对应parent Stage还存在尚未提交的parent Stage,提交之;
最好,对于没有parent Stage的Stage,根据stage中rdd的分区,生成tasks,即TaskSet,创建TaskSetManager,并由SchedulerBackend申请资源。
整个处理流程如下图所示:
未完待续,明天继续~
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
大数据技能修炼的个人道场
版权声明:本文为半吊子子全栈工匠(wireless_com,同公众号)原创文章,未经允许不得转载。 https://blog.csdn.net/wireless_com/article/details/50663978 大数据技术火热而且火爆,学习大数据的课程和资料也泛滥如潮,而大数据研发环境又不是随便就可以搭建起来的,如何有一个自己随时可用的大数据修炼道场呢? 网上有很多hadoop单机版的搭建教程,但大多是基础组件,如果想窥探Hadoop 的整个生态系统,并建立一个人的大数据环境,从而修炼大数据的各种技术,我觉得非 HDP 的Sandbox 莫属了。 HDP 的Sandbox 是一个基于虚拟机的单节点hadoop集群,相当于一个伪分布式环境,学习和使用都非常的轻松便捷。虚拟机既支持VMware也支持VirtualBox,完全可以在windows和mac 上无缝执行,需要注意的是需要64位的主机多核cpu并支持虚拟化。 以virtualbox为例,三步,只需三步,就可以搭建自己修炼大数据技术的环境了。 1)先去下载安装virtualbox, https://www.virtualbo...
- 下一篇
Hadoop十岁!Doug Cutting成长史+他眼中大数据技术的未来
上次见到(膜拜)Hadoop之父Doug Cutting是在2年前,2014中国大数据技术大会上。今年Hadoop10岁,刚看到他的Hadoop十周年贺词,感觉时间飞逝。最近CSDN和InfoQ都在制作Hadoop选题。云栖社区也找到不少阿里Hadoop生态高手,2-3月会做多场实时在线培训。大家想听什么,告诉我们。 Doug Cutting成长史 2013年时,CSDN曾有文章详细介绍了Hadoop之父Doug Cutting。直到现在,再次阅读还是深有体会。要知道,1985年毕业于美国斯坦福大学的Cutting并不是一开始就决心投身IT行业的。在大学时代的头两年,Cutting学习了诸如物理、地理等常规课程。因为学费的压力,Cutting开始意识到,自己必须学习一些更加实用、有趣的技能。这样,一方面可以帮助自己还清贷款,另一方面,
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果