Spark shell的原理深入研究

2017-11-13 698

Spark shell是一个特别适合快速开发Spark原型程序的工具，可以帮助我们熟悉Scala语言。即使你对Scala不熟悉，仍然可以使用这个工具。Spark shell使得用户可以和Spark集群交互，提交查询，这便于调试，也便于初学者使用Spark。

感受到Spark shell是如此的方便，因为它很大程度上基于Scala REPL(Scala 交互式shell，即Scala解释器)，并继承了Scala REPL(读取-求值-打印-循环)(Read-Evaluate-Print-Loop)的所有功能。

Sprk Shell虽然强大，但多数时候你还是会运行编译后的代码，而不是使用REPL环境，即API。

　　这里啊，首次使用spark一般都是从执行spark-shell开始的。当在键盘上敲入spark-shell并回车时，我用源码来分析。

　　这里是个知识点。若没有对spark进行安装集群部署，直接将spark的压缩包，解压，然后执行spark-shell，默认是local模式。

　　关于spark的安装部署方式，我这里不多赘述。请移步

Spark运行模式概述

　　而，我们这一句将spark进行了集群安装（Jdk、Scala、Hadoop、Spark）等。

　　执行spark-shell，则是，集群模式。

　　想清晰的学习，请移步

Spark Standalone与Spark on YARN的几种提交方式

spark-shell的脚本

export SPARK_SUBMIT_OPTS
"$FWDIR"/bin/spark-submit --class org.apache.spark.repl.Main --name "Spark shell" "$@"

spark-submit的脚本

exec "$SPARK_HOME"/bin/spark-class org.apache.spark.deploy.SparkSubmit "$@"

spark-class的脚本

# Find the java binary
if [ -n "${JAVA_HOME}" ]; then
RUNNER="${JAVA_HOME}/bin/java"
else
if [ `command -v java` ]; then
RUNNER="java"
else
echo "JAVA_HOME is not set" >&2
exit 1
fi
fi

 

exec    "$RUNNER" -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main "$@"

总结:

　　1、运行spark-shell，则会运行spark-submit。

　 2、spark-shell其实是对spark-submit的一层封装!!!

3、在某些情况下，可能需要对环境变量及JVM启动参数做修改，还可能涉及ulimit中的某些配置项，那么可以将这些指令添加到sparl-class中。

　　4、SparkSbumit当中定义了mian函数，在它的处理中会将Spark Repl运行起来，Spark Repl能够接收用户的输入，通过编译与运行，返回结果给用户。

这就是Spark具有交互处理能力的原因所在。

　　调用顺序： SparkSbumit -> repl.Main -> SparkILoop

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5717800.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/371325

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark shell的实例操作

1、 scala> val inFile = sc.textFile("./spam.data") 作用是将spam.data当作文本文件加载到Spark中，将spam.data文件中的每行作为一个RDD中的单独元素加载到Spark中，并返回一个名为inFile的RDD。 2、 scala> val inFile = sc.textFile([filepath]) 作用是，在本地模式下，可以将文件从本地直接加载。 3、 scala> import spark.SparkFiles; scala> val file = sc.addFile("spam.data") scala> val inFile = sc.textFile(SparkFiles.get("spam.data")) 作用是，让spam.data文件在所有机器上都有备份，使用了SparkContext类中的addFile函数。 4、 scala> val nums = inFile.map(x => x.split(' ').map(_.toDoubl...

2017-11-13

672

为什么会引入RDD？我们知道，无论是工业界还是学术界，都已经广泛使用高级集群编程模型来处理日益增长的数据，如MapReduce和Dryad。这些系统将分布式编程简化为自动提供位置感知性调度、容错以及负载均衡，使得大量用户能够在商用集群上分析超大数据集。大多数现有的集群计算系统都是基于非循坏的数据流模型。即从稳定的物理存储（如分布式文件系统）中加载记录，记录被传入由一组稳定性操作构成的DAG(Directed Acyclic Graph，有向无环图)，然后写回稳定存储。DAG数据流图能够在运行时自动实现任务调度和故障恢复。尽管非循环数据流是一种强大的抽象方法，但仍然有些应用无法使用这种方式描述。这类应用包括： 1）机器学习和图应用中常用的迭代算法（每一步对数据执行相似的函数）； 2）交互式数据挖掘工具（用户反复查询一个数据子集）。基于数据流的框架并不明确支持工作集，所以需要将数据输出到磁盘，然后在每次查询时重新加载，这会带来较大的开销。针对上述问题，Spark实现了一种分布式的内存抽象，称为RDD(弹性分布式数据集)。它支持基于工作集的应用，同时具有数...

2017-11-13

615

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Spark shell的原理深入研究

Spark运行模式概述

Spark shell的实例操作

Spark RDD概念学习系列之为什么会引入RDD？（一）

相关文章

发表评论

资源下载

Mario

腾讯云软件源

Nacos

Rocky Linux

欢迎您来访！