Spark学习之在集群上运行Spark（6）-低调大师

Spark学习之在集群上运行Spark（6）

2016-01-18 688

Spark学习之在集群上运行Spark（6）

1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行，来扩展程序的计算能力。

2. Spark既能适用于专用集群，也可以适用于共享的云计算环境。

3. Spark在分布式环境中的架构：

Created with Raphaël 2.1.0我的操作集群管理器Mesos、YARN、或独立集群管理器N个集群工作节点(执行器进程)

Spark集群采用的是主/从结构，驱动器（Driver）节点和所有执行器（executor）节点一起被称为一个Spark应用（application）。

Spark自带的集群管理器被称为独立集群管理器。

4. 驱动器节点

Spark的驱动器是执行程序main()方法的进程。它执行用户编写的用来创建SparkContext、创建RDD，以及进行RDD的转化操作和行动操作的代码。

5. 执行器节点

Spark的执行器节点是一种工作进程，负责在Spark作业中运行任务，任务间相互独立。
两大作用：第一，它们负责运行组成Spark应用的任务，并将结果返回给驱动器进程；第二，它们通过自身的块管理器（Block Manager）为用户程序中要求的缓存的RDD提供内存式存储。

6. 集群管理器

Spark依赖于集群管理器来启动执行器节点，在某特殊情况下，也依赖集群管理器来启动驱动器节点。

7. 提交Python应用（spark-submit）

bin/spark-submit my_script.py

8. 打包依赖

Maven或者sbt

微信关注我们

原文链接：https://yq.aliyun.com/articles/70656

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark Streaming 的一些问题

Spark Streaming 的一些问题，做选型前关注这些问题可以有效的降低使用风险。 checkpoint checkpoint 是个很好的恢复机制。但是方案比较粗暴，直接通过序列化的机制写入到文件系统，导致代码变更和配置变更无法生效。实际场景是升级往往比系统崩溃的频率高太多。但是升级需要能够无缝的衔接上一次的偏移量。所以spark streaming在无法容忍数据有丢失的情况下，你需要自己记录偏移量，然后从上一次进行恢复。我们目前是重写了相关的代码，每次记录偏移量，不过只有在升级的时候才会读取自己记录的偏移量，其他情况都是依然采用checkpoint机制。 Kafka 这个和Spark Streaming相关，也不太相关。说相关是因为Spark 对很多异常处理比较简单。很多是和Kafka配置相关的。我举个例子：如果消息体太大了，超过 fetch.message.max.bytes=1m,那么Spark Streaming会直接抛出OffsetOutOfRangeException异常，然后停止服务。对应的错误会从这行代码抛出： if (!iter.hasNext) { as...

2016-01-18

573

Spark学习之Spark调优与调试（7） 1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项。当创建一个SparkContext时就会创建一个SparkConf实例。 2. Spark特定的优先级顺序来选择实际配置：优先级最高的是在用户代码中显示调用set()方法设置选项；其次是通过spark-submit传递的参数；再次是写在配置文件里的值；最后是系统的默认值。 3.查看应用进度信息和性能指标有两种方式：网页用户界面、驱动器和执行器进程生成的日志文件。 4.Spark执行的组成部分：作业、任务和步骤需求：使用Spark shell完成简单的日志分析应用。 scala> val input =sc.textFile("/home/spark01/Documents/input.text") input: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at textFile at <console>:27 scala> val tokenized = input....

2016-01-19

616

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。