Spark官方文档: Spark Configuration（Spark配置）

2019-10-19 1164

Spark官方文档: Spark Configuration（Spark配置）

Spark主要提供三种位置配置系统：

环境变量：用来启动Spark workers，可以设置在你的驱动程序或者conf/spark-env.sh 脚本中；
java系统性能：可以控制内部的配置参数，两种设置方法：
- 编程的方式（程序中在创建SparkContext之前，使用System.setProperty（“xx”，“xxx”）语句设置相应系统属性值）；
- 在conf/spark-env.sh中配置环境变量SPARK_JAVA_OPTS。
日志配置：通过log4j.properties实现

一、环境变量

spark安装目录下的conf/spark-env.sh脚本决定了如何初始化worker nodes的JVM，甚至决定了你在本地如何运行spark-shell。在Git库中这个脚本默认是不存在的，但是你可以自己创建它并通过复制con/spark-env.sh.template中的内容来配置，最后要确保你创建的文件可执行。

在spark-env.sh中你至少有两个变量要设置：

SCALA_HOME，指向你的scala安装路径；或者是SCALA_LIBRARY_PATH指向scala library JARS所在的目录（如果你是通过DEB或者RPM安装的scala，他们是没有SCALA_HOME的，但是他们的libraries是分离的，默认在/usr/share/java中查找scala-library.jar）
MESOS_NATIVE_LIBRARY，如果你要在Mesos上运行集群的话

另外，还有其他四个变量来控制执行。应该将他们设置在启动驱动程序的环境中来取代设置在spark-env.sh，因为这样这些设置可以自动传递给workers。将他们设置在每个作业中而不是spark-env.sh中，这样确保了每个作业有他们自己的配置。

SPARK_JAVA_ORTS，添加JVM选项。你可以通过-D来获取任何系统属性；
SPARK_CLASS_PATH，添加元素到Spark的classpth中；
SPARK_LIBARAT_OATH，添加本地libraries的查找目录；
SPARK_MEM，设置每个节点所能使用的内存总量。他们应该和JVM‘s -Xmx选项的格式保持一致（e.g.300m或1g）。注意：这个选项将很快被弃用支持系统属性spark.executor.memory，所以我们推荐将它使用在新代码中。

注意：如果你将他们设置在spark-env.sh中，他们将覆盖用户程序设定的值，这是不可取的。如果你喜欢，你可以选择在spark-env.sh设置他们仅当用户程序没有做任何设置时，例如：

if [ -z "$SPARK_JAVA_OPTS" ] ; thenSPARK_JAVA_OPTS="-verbose:gc"fi

二、系统属性
通过设置系统属性来配置Spark，你必须通过以下两种方式中的任意一个来达到目的：

在JVM中通过-D标志（例如：java -Dspark.cores.max=5 MyProgram）
在你的程序中创建SparkContext之前调用System.setProperty，如下：

     System.setProperty("spark.cores.max", "5")     val sc = new SparkContext(...)

更多可配置的控制内部设置的系统属性已经有了合理的默认属性值。然而，有五个属性通常是你想要去控制的：

属性名称	默认值	含义
spark.executor.memory	512m	每个处理器可以使用的内存大小，跟JVM的内存表示的字符串格式是一样的(比如： '512m'，'2g')
spark.serializer	spark.JavaSerializer	一个类名，用于序列化网络传输或者以序列化形式缓存起来的各种对象。默认情况下Java的序列化机制可以序列化任何实现了Serializable接口的对象，但是速度是很慢的，因此当你在意运行速度的时候我们建议你使用spark.KryoSerializer 并且配置 Kryo serialization。可以是任何 spark.Serializer的子类。
spark.kryo.registrator	(none)	如果你使用的是Kryo序列化，就要为Kryo设置这个类去注册你自定义的类。这个类需要继承spark.KryoRegistrator。可以参考调优指南获取更多的信息。
spark.local.dir	/tmp	设置Spark的暂存目录，包括映射输出文件盒需要存储在磁盘上的RDDs。这个磁盘目录在你的系统上面访问速度越快越好。可以用逗号隔开来设置多个目录。
spark.cores.max	(infinite)	当运行在一个独立部署集群上或者是一个粗粒度共享模式的Mesos集群上的时候，最多可以请求多少个CPU核心。默认是所有的都能用。

除了这些，在某些情况下以下属性可能也是需要设置的：

属性名	默认值	含义
spark.mesos.coarse	false	如果设置为了"true"，将以粗粒度共享模式运行在Mesos集群上，这时候Spark会在每台机器上面获得一个长期运行的Mesos任务，而不是对每个Spark任务都要产生一个Mesos任务。对于很多短查询，这个可能会有些许的延迟，但是会大大提高Spark工作时的资源利用率。
spark.default.parallelism	8	在用户没有指定时，用于分布式随机操作(groupByKey,reduceByKey等等)的默认的任务数。
spark.storage.memoryFraction	0.66	Spark用于缓存的内存大小所占用的Java堆的比率。这个不应该大于JVM中老年代所分配的内存大小，默认情况下老年代大小是堆大小的2/3，但是你可以通过配置你的老年代的大小，然后再去增加这个比率。
spark.ui.port	(random)	你的应用程序控制面板端口号，控制面板中可以显示每个RDD的内存使用情况。
spark.shuffle.compress	true	是否压缩映射输出文件，通常设置为true是个不错的选择。
spark.broadcast.compress	true	广播变量在发送之前是否先要被压缩，通常设置为true是个不错的选择。
spark.rdd.compress	false	是否要压缩序列化的RDD分区（比如，StorageLevel.MEMORY_ONLY_SER）。在消耗一点额外的CPU时间的代价下，可以极大的提高减少空间的使用。
spark.reducer.maxMbInFlight	48	同时获取每一个分解任务的时候，映射输出文件的最大的尺寸（以兆为单位）。由于对每个输出都需要我们去创建一个缓冲区去接受它，这个属性值代表了对每个分解任务所使用的内存的一个上限值，因此除非你机器内存很大，最好还是配置一下这个值。
spark.closure.serializer	spark.JavaSerializer	用于闭包的序列化类。通常Java是可以胜任的，除非在你的驱动程序中分布式函数(比如map函数)引用了大量的对象。
spark.kryoserializer.buffer.mb	32	Kryo中运行的对象的最大尺寸（Kryo库需要创建一个不小于最大的单个序列化对象的缓存区）。如果在Kryo中出现"buffer limit exceeded"异常，你就需要去增加这个值了。注意，对每个worker而言，一个核心就会有一个缓冲。
spark.broadcast.factory	spark.broadcast.HttpBroadcastFactory	使用哪一个广播实现
spark.locality.wait	3000	在发布一个本地数据任务时候，放弃并发布到一个非本地数据的地方前，需要等待的时间。如果你的很多任务都是长时间运行的任务，并且看到了很多的脏数据的话，你就该增加这个值了。但是一般情况下缺省值就可以很好的工作了。
spark.worker.timeout	60	如果超过这个时间，独立部署master还没有收到worker的心跳回复，那么就认为这个worker已经丢失了。
spark.akka.frameSize	10	在控制面板通信（序列化任务和任务结果）的时候消息尺寸的最大值，单位是MB。如果你需要给驱动器发回大尺寸的结果（比如使用在一个大的数据集上面使用collect()方法），那么你就该增加这个值了。
spark.akka.threads	4	用于通信的actor线程数量。如果驱动器有很多CPU核心，那么在大集群上可以增大这个值。
spark.akka.timeout	20	Spark节点之间通信的超时时间，以秒为单位
spark.driver.host	(local hostname)	驱动器监听主机名或者IP地址.
spark.driver.port	(random)	驱动器监听端口号
spark.cleaner.ttl	(disable)	Spark记忆任何元数据(stages生成，任务生成等等)的时间(秒)。周期性清除保证在这个时间之前的元数据会被遗忘。当长时间几小时，几天的运行Spark的时候设置这个是很有用的。注意：任何内存中的RDD只要过了这个时间就会被清除掉。
spark.streaming.blockInterval	200	从网络中批量接受对象时的持续时间。
spark.task.maxFailures	4	task失败重试次数

三、配置日志

Spark使用log4j来记录。你可以在conf目录中添加log4j.properties文件来配置。一种方法是复制本地已存在的log4j.properties.template

推荐阅读：

微信关注我们

原文链接：https://yq.aliyun.com/articles/608082

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Zabbix 的 Docker 映像

在Docker中使用zabbix进行监控Container 容器提供了以下* Zabbix服务*，请参阅[ Zabbix文件]（http://www.zabbix.com/）附加信息。 Zabbix Server端口号10051. Zabbix Java Gateway端口号 10052. Zabbix Web UI端口号 80 (例子 http://$container_ip/zabbix ) Zabbix Agent. MySQL实例支持Zabbix, 用户名密码都是 zabbix. Monit管理在这里 (http://$container_ip:2812, user 'myuser' and password 'mypassword'). 如何使用你可以执行以下命令运行Zabbix服务. docker run -d -P --name zabbixberngp/docker-zabbix 上面的命令要求在*docker*跑*berngp/docker-zabbix*镜像的时候开放所有** Zabbix **指定所有本地端口去运行实例。运行 docker ps -f name...

2019-10-19

941

1.windows按照docker的基本要求（1）64为操作系统，win7或者更高（2）支持“ Hardware Virtualization Technology”，并且，“virtualization ”可用 2.具体安装步骤即安装Docker Toolbox，同时还附加安装 Docker Client for Windows Docker Toolbox management tool and ISO Oracle VM VirtualBox Git MSYS-git UNIX tools不用担心，下载的Docker Toolbox已经完全包含了这几个软件，直接安装就可以了 1.进入Docker Toolbox的下载网页，选择windows版本下载2. 下载完成后，双击安装文件3. 一路Next，接受所有默认安装注意：在安装过程中，会出现几个其他的安装过程，如Ocracle Corporation等系列软件，全部选择安装即可，下面是几个小例子:另外，如果你安装了360，它可能会阻止程序的安装，应该注意允许程序安装4. 最后Finish5. 整个安装过程非常简单，安装完成后，...

2019-10-19

1048

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。