Spark on yarn配置项说明与优化整理-低调大师

Spark on yarn配置项说明与优化整理

2015-12-04 596

配置于spark-default.conf

1. #spark.yarn.applicationMaster.waitTries 5

用于applicationMaster等待Spark master的次数以及SparkContext初始化尝试的次数 (一般不用设置)

2.spark.yarn.am.waitTime 100s

3.spark.yarn.submit.file.replication 3

应用程序上载到HDFS的复制份数

4.spark.preserve.staging.files false

设置为true，在job结束后，将stage相关的文件保留而不是删除。（一般无需保留，设置成false)

5.spark.yarn.scheduler.heartbeat.interal-ms 5000

Spark application master给YARN ResourceManager 发送心跳的时间间隔（ms）

6.spark.yarn.executor.memoryOverhead 1000

此为vm的开销（根据实际情况调整)

7.spark.shuffle.consolidateFiles true

仅适用于HashShuffleMananger的实现，同样是为了解决生成过多文件的问题，采用的方式是在不同批次运行的Map任务之间重用Shuffle输出文件，也就是说合并的是不同批次的Map任务的输出数据，但是每个Map任务所需要的文件还是取决于Reduce分区的数量，因此，它并不减少同时打开的输出文件的数量，因此对内存使用量的减少并没有帮助。只是HashShuffleManager里的一个折中的解决方案。

8.spark.serializer org.apache.spark.serializer.KryoSerializer

暂时只支持Java serializer和KryoSerializer序列化方式

9.spark.kryoserializer.buffer.max 128m

允许的最大大小的序列化值。

10.spark.storage.memoryFraction 0.3

用来调整cache所占用的内存大小。默认为0.6。如果频繁发生Full GC，可以考虑降低这个比值，这样RDD Cache可用的内存空间减少（剩下的部分Cache数据就需要通过Disk Store写到磁盘上了），会带来一定的性能损失，但是腾出更多的内存空间用于执行任务，减少Full GC发生的次数，反而可能改善程序运行的整体性能。

11.spark.sql.shuffle.partitions 800

一个partition对应着一个task,如果数据量过大，可以调整次参数来减少每个task所需消耗的内存.

12.spark.sql.autoBroadcastJoinThreshold -1

当处理join查询时广播到每个worker的表的最大字节数，当设置为-1广播功能将失效。

13.spark.speculation false

如果设置成true，倘若有一个或多个task执行相当缓慢，就会被重启执行。（事实证明，这种做法会造成hdfs中临时文件的丢失，报找不到文件的错)

14.spark.shuffle.manager tungsten-sort

tungsten-sort是一种类似于sort的shuffle方式，shuffle data还有其他两种方式 sort、hash. (不过官网说 tungsten-sort 应用于spark 1.5版本以上）

15.spark.sql.codegen true

Spark SQL在每次执行次，先把SQL查询编译JAVA字节码。针对执行时间长的SQL查询或频繁执行的SQL查询，此配置能加快查询速度，因为它产生特殊的字节码去执行。但是针对很短的查询，可能会增加开销，因为它必须先编译每一个查询

16.spark.shuffle.spill false

如果设置成true，将会把spill的数据存入磁盘

17.spark.shuffle.consolidateFiles true

我们都知道shuffle默认情况下的文件数据为map tasks * reduce tasks,通过设置其为true,可以使spark合并shuffle的中间文件为reduce的tasks数目。

18.代码中如果filter过滤后会有很多空的任务或小文件产生，这时我们使用coalesce或repartition去减少RDD中partition数量。

微信关注我们

原文链接：https://yq.aliyun.com/articles/609105

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

在Ubuntu环境部署Apache Spark集群

版权声明：本文为博主chszs的原创文章，未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/50166991 在Ubuntu环境部署Apache Spark集群作者：chszs，未经博主允许不得转载。经许可的转载需注明作者和博客主页：http://blog.csdn.net/chszs 1、软件环境本文主要讲述怎样在Ubuntu系统上部署Apache Spark独立集群（Standalone Cluster）的过程。所需的软件如下： Ubuntu 15.10 x64 Apache Spark 1.5.1 2、安装所需的一切 # sudo apt-get install git -y # sudo apt-add-repository ppa:webupd8team/java -y # sudo apt-get update -y # sudo apt-get install oracle-java8-installer -y # sudo apt-get install oracle-java8-set-default ...

2015-12-02

636

MLlib的设计原理:把数据以RDD的形式表示，然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。操作步骤: 1、用字符串RDD来表示信息。 2、运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征。给操作会返回一个向量RDD。 3、对向量RDD调用分类算法，返回一个模型对象，可以使用该对象对新的数据点进行分类。 4、使用MLlib的评估函数在测试数据集上评估模型。机器学习基础：机器学习算法尝试根据训练数据使得表示算法行为的数学目标最大化，并以此来进行预测或作出决定。包括分类、回归、聚类，每种都有不一样的目标。所有的学习算法都需要定义每个数据点的特征集，也就是传给学习函数的值。更重要的在于如何去正确的定义特征。例如：在产品推荐的任务中，仅仅机上一个额外的特征（推荐给用户的书籍也可能取决于用户看过的电影），就有可能极大地改进结果。当数据已成为特征向量的形式后，大多数机器学习算法会根据这些向量优化一个定义好的数学模型。然后算法会再运行结束时返回一个代表学习决定的模型。 MLlib数据类型 1、Vector 一个数学向量。...

2015-12-05

679

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。