Spark的运行架构分析(一)之架构概述
1:Spark的运行模式 2:Spark中的一些名词解释 3:Spark的运行基本流程 4:RDD的运行基本流程 一:Spark的运行模式 Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalone模式。对于外部资源调度框架的支持,目前的实现包括相对稳定的Mesos模式,以及还在持续开发更新中的hadoop YARN模式。 在实际应用中,Spark应用程序的运行模式取决于传递给SparkContext 的Master环境变量的值,个别模式还需要依赖辅助的程序接口来配合使用,目前所支持的Master环境变量由特定的字符串或URL组成,如下: Local[N]:本地模式,使用N个线程 Local cluster[worker,core,Memory]:伪分布模式,可以配置所需要启动的虚拟工作节点的数量,以及每个工作节点所管理的CPU数量和内存尺寸 Spark://hos...











