《Spark官方文档》集群模式概览

2017-05-18 727

集群模式概览

本文简要描述了Spark在集群中各个组件如何运行。想了解如何在集群中启动Spark应用，请参考application submission guide 。

组件

Spark应用在集群上运行时，包括了多个独立的进程，这些进程之间通过你的主程序（也叫作驱动器，即：driver）中的SparkContext对象来进行协调。

特别要指出的是，SparkContext能与多种集群管理器通信（包括：Spark独立部署时自带的集群管理器，Mesos或者YARN）。一旦连接上集群管理器，Spark会为该应用在各个集群节点上申请执行器（executor），用于执行计算任务和存储数据。接下来，Spark将应用程序代码（JAR包或者Python文件）发送给所申请到的执行器。最后SparkContext将分割出的任务（task）发送给各个执行器去运行。

这个架构中有几个值得注意的地方：

每个Spark应用程序都有其对应的多个执行器进程，执行器进程在整个应用程序生命周期内，都保持运行状态，并以多线程方式运行所收到的任务。这样的好处是，可以隔离各个Spark应用，从调度角度来看，每个驱动器可以独立调度本应用程序内部的任务，从执行器角度来看，不同的Spark应用对应的任务将会在不同的JVM中运行。然而这种架构同样也有其劣势，多个Spark应用程序之间无法共享数据，除非把数据写到外部存储中。
Spark对底层的集群管理器一无所知。只要Spark能申请到执行器进程，并且能与之通信即可。这种实现方式可以使Spark相对比较容易在一个支持多种应用的集群管理器上运行（如：Mesos或YARN）
驱动器（driver）程序在整个生命周期内必须监听并接受其对应的各个执行器的连接请求（参考：spark.driver.port and spark.fileserver.port in the network config section）。因此，驱动器程序必须能够被所有worker节点访问到。
因为集群上的任务是由驱动器来调度的，所以驱动器应该和worker节点距离近一些，最好在同一个本地局域网中。如果你需要远程对集群发起请求，最好还是在驱动器节点上启动RPC服务，来响应这些远程请求，同时把驱动器本身放在集群worker节点比较近的机器上。

集群管理器类型

Spark支持以下3中集群管理器：

Standalone – Spark自带的一个简单的集群管理器，这使得启动一个Spark集群变得非常简单。
Apache Mesos – 一种可以运行Hadoop MapReduce或者服务型应用的通用集群管理器。
Hadoop YARN – Hadoop 2的集群管理器。

另外，使用Spark的EC2 launch scripts可以轻松地在Amazon EC2上启动一个独立集群。

提交Spark应用

利用spark-submit脚本，可以向Spark所支持的任意一种集群提交应用。详见：application submission guide

监控

每一个驱动器（driver）都有其对应的web UI，默认会绑定4040端口（多个并存会按顺序绑定4041、4042…），这个web UI会展示该Spark应用正在运行的任务（task）、执行器（executor）以及所使用的存储信息。只需在浏览器种打开http://<driver-node>:4040即可访问。monitoring guide 详细描述了其他监控选项。

作业调度

Spark可以在应用程序之间（集群管理器这一层面）和之内（如：同一个SparkContext对象运行了多个计算作业）控制资源分配。job scheduling overview 描述了更详细的信息。

概念和术语

下表简要说明了集群模式下的一些概念和术语：

术语	含义
Application（应用）	Spark上运行的应用。包含了驱动器（driver）进程（一个）和集群上的执行器（executor）进程（多个）
Application jar（应用jar包）	包含Spark应用程序的jar包。有时候，用户会想要把应用程序代码及其依赖打到一起，形成一个“uber jar”（包含自身以及所有依赖库的jar包），注意这时候不要把Spark或Hadoop的库打进来，这些库会在运行时加载
Driver program（驱动器）	运行main函数并创建SparkContext的进程。
Cluster manager（集群管理器）	用于在集群上申请资源的外部服务（如：独立部署的集群管理器、Mesos或者YARN）
Deploy mode（部署模式）	用于区分驱动器进程在哪里运行。在”cluster”模式下，驱动器将运行在集群上某个节点；在”client“模式下，驱动器在集群之外的客户端运行。
Worker node（工作节点）	集群上运行应用程序代码的任意一个节点。
Executor（执行器）	在集群工作节点上，为某个应用启动的工作进程；专门用于运行计算任务，并在内存或磁盘上保存数据。每个应用都独享其对应的多个执行器。
Task（任务）	下发给执行器的工作单元。
Job（作业）	一个并行计算作业，由一组任务（Task）组成，并由Spark的行动（action）算子（如：save、collect）触发启动；你会在驱动器日志中看到这个术语。
Stage（步骤）	每个作业（Job）可以划分为更小的任务（Task）集合，这就是步骤（Stage），这些步骤彼此依赖形成一个有向无环图（类似于MapReduce中的map和reduce）；你会在驱动器日志中看到这个术语。

转载自并发编程网 - ifeve.com

微信关注我们

原文链接：https://yq.aliyun.com/articles/86532

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《Spark 官方文档》在Mesos上运行Spark

在Mesos上运行Spark Spark可以在由Apache Mesos管理的硬件集群中运行。在Mesos集群中使用Spark的主要优势有：可以在Spark以及其他框架（frameworks）之间动态划分资源。可以同时部署多个Spark实例，且各个实例间的资源分配可以调整。工作原理在独立部署的Spark集群中，下图里的Cluster Manager代表Spark master。然而，在Mesos集群中，Mesos master将取代Spark master在下图中的地位。如果一个Spark驱动程序（driver）提交一个作业（job）并开始分发调度作业相关的任务（task），将会由Mesos来决定每个任务分发到哪台机器上。Mesos在调度短期任务的时候，会根据提交任务的账号来动态分配资源，而不需要依赖于静态的资源划分。按以下所示的步骤，来安装Mesos，以及向Mesos提交Spark作业。安装Mesos Spark 1.6.0使用Mesos 0.21.0的时候，不需要任何特殊的Mesos补丁包。如果你已经有一个Mesos集群，可以忽略Mesos安装这一步。为Spar...

2017-05-18

624

Spark是一个高效的分布式计算系统，本文是Spark官方文档的翻译。编程指南: 快速入门编程指南在Spark里构建模块 Spark Streaming编程 Spark SQL, DataFrames 以及 Datasets 编程指南机器学习库MLlib GraphX: Spark’s new API for graph processing API文档: Spark Scala API (Scaladoc) Spark Java API (Javadoc) Spark Python API (Sphinx) Spark R API (Roxygen2) 开发者指南: 集群模式概览提交Spark应用部署方式在Amazon EC2上运行Spark 独立部署模式在Mesos上运行Spark 在YARN上运行Spark 其他文档: Spark的配置监控 Tuning Guide Spark作业调度 Spark安全性配置硬件配置 Integration with other storage systems: OpenStack Swift Building Spark: b...

2017-05-18

852

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。