Spark入门到精通视频学习资料--第三章:Spark进阶(2讲)
掌握Spark内核是精通Spark的关键,也是驾驭Spark的精髓所在。
基于Spark内核,Spark构建起了一体化多元化的大数据处理流水线,在一个技术堆栈中即可以同时完成批处理、实时流处理、交互式查询、机器学习、图计算以及这些子框架之间数据和RDD算子的无缝共享与互操作。
可以说,Spark内核是每个想彻底掌握Spark的人员的必修课,通过对内核的探索,我们对整个Spark的运行机制会了如指掌,这对Spark的大规模应用、性能优化、系统自定义开发Spark系统都是至关重要的。
一、Spark内核核心术语解析
Application:
Application是创建了SparkContext实例对象的Spark用户,包含了Driver程序
Spark-shell是一个应用程序,因为spark-shell在启动的时候创建了SparkContext对象,其名称为scJob:
和Spark的action相对应,每一个action例如count、savaAsTextFile等都会对应一个Job实例,该Job实例包含多任务的并行计算。
Driver Program:
运行main函数并且新建SparkContext实例的程序。
Cluster Manager:
集群资源管理的外部服务,在Spark上现在主要有Standalone、Yarn、Mesos等三种集群资源管理器,Spark自带的Standalone模式能够满足绝大部分纯粹的Spark计算环境中对集群资源管理的需求,基本上只有在集群中运行多套计算框架的时候才建议考虑Yarn和Mesos。
Worker Node:
集群中可以运行应用程序代码的工作节点,相当于Hadoop的slave节点。
Executor:
在一个Worker Node上为应用启动的工作进程,在进程中负责任务的运行,并且负责将数据存放在内存或磁盘上,必须注意的是,每个应用在一个Worker Node上只会有一个Executor,在Executor内部通过多线程的方式并发处理应用的任务。
Task:
被Driver送到executor上的工作单元,通常情况下一个task会处理一个split的数据,每个split一般就是一个Block块的大小
Stage:
一个Job会被拆分成很多任务,每一组任务被成为Stage,这个MapReduce的map和reduce任务很像,划分Stage的依据在于:Stage开始一般是由于读取外部数据或者Shuffle数据、一个Stage的结束一般是由于发生Shuffle(例如reduceByKey操作)或者整个Job结束时例如要把数据放到hdfs等存储系统上
详细讲解请参考以下视频:
深入spark内核(上).mp4 http://pan.baidu.com/s/1bnB62MN
深入spark内核(上).mp4 http://pan.baidu.com/s/1ntr9qsh
另附上讲解PPT:
深入spark内核.pdf http://pan.baidu.com/s/1mgHZGhU
==========================================================
申明:视频资料已过期,建议不要再下载了。
==========================================================

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
ssh免密码登陆配置及注意事项
在配置hadoop完全分布式模式时,需设置ssh免密码登陆,研究查询一番,记录如下: 设置ssh免密码登陆,首先生成公私密钥,在当前用户主目录下(即/home/xxx,xxx为用户名),执行命令 执行上述命令后会在当前目录下生成 .ssh 文件夹(ls -l可查看隐藏文件夹),该文件夹下包含文件如图 将本机的公钥复制到验证密钥文件中,用于被登陆时利用公钥解密,执行命令 注意,执行以上命令后,可能执行无密码登陆会不成功,需修改文件authorized_keys的权限,改为600,执行命令 此时无密码登陆本机测试 此时登陆,首次需输入yes,二次登陆时可直接进入无需输入任何信息。 在该机器登陆通过ssh登陆其他机器时,只需将 .ssh 文件夹下id_dsa.pub文件中的内容复制到欲被登陆其他机器的 .ssh文件夹下的authorized_keys文件中,可先通过scp将文件id_dsa.pub传到其他机器上的.ssh文件夹中(注意与本机的公钥文件不重名,可在scp传送时重命名,假设重命名为other_dsa.pub),在其上执行cat ~/.ssh/other_dsa.pub ~/.ss...
- 下一篇
Spark入门到精通视频学习资料--第四章:基于Spark的流处理框架Spark Streaming(2讲)
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。 本文将详细介绍 Spark Streaming 实时计算框架的原理与特点、适用场景。 Spark Streaming 实时计算框架 Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以在快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法。 Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。 Spark Streaming的优势在于: 能运行在100+的结点上,并达到秒级延迟。 使用基于内存的Spark作为执行引擎,具有高效和容错的特性。 能集成Spark的批处理和交互查询。 为实现复杂的算法提供和批处理类似的简...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装Docker,最新的服务器搭配容器使用
- 设置Eclipse缩进为4个空格,增强代码规范
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2全家桶,快速入门学习开发网站教程
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- MySQL8.0.19开启GTID主从同步CentOS8
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7