Tuning Spark-低调大师

Tuning Spark

2017-05-01 702

Data Serialization

数据序列化，对于任意分布式系统都是性能的关键点

Spark默认使用Java serialization，这个比较低效

推荐使用，Kryo serialization，会比Java序列化，更快更小， Spark使用Twitter chill library（Kryo的scala扩展）

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

conf.set("spark.kryoserializer.buffer.mb“, 2), 需要大于最大的需要序列化的对象size

之所以，spark不默认使用Kryo，因为Kryo需要显式的注册program中使用到的class，参考

val conf = new SparkConf().setMaster(...).setAppName(...)
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

只所以要做注册是因为，在把对象序列化成byte[]时，要记录下classname，classname带namespace一般很长的，所以每个里面加上这个classname比较费空间
在kryo里面注册过后，会用一个int来替代classname
当然不注册kryo也是可以用的，只是会多占空间

Memory Tuning

Tuning之前需要知道当前dataset的内存消耗是多少，
简单的方法是，以该dataset创建rdd，然后cache
这样从SparkContext的日志里面可以看到每个partition的大小，加一下，就可以得到整个数据集的大小

INFO BlockManagerMasterActor: Added rdd_0_1 in memory on mbk.local:50311 (size: 717.5 KB, free: 332.3 MB)

This means that partition 1 of RDD 0 consumed 717.5 KB.

然后可以从几个方面去进行优化，

Tuning Data Structures

Java对象虽然便于访问，但是和raw data比，java对象的size要大2～5倍

Each distinct Java object has an “object header”, which is about 16 bytes

Java Strings have about 40 bytes of overhead over the raw string data, and store each character as two bytes due to String’s internal usage of UTF-16 encoding

其他的比如HashMap或LinkedList，除了header，还需要8 bytes pointer来指向下个对象

总之，就是对于内存敏感的应用，直接使用Java对象是非常不经济的

可以从以下几点去优化，

a, 优先使用arrays of objects, and primitive types，而非java或scala的标准collection class

或者使用fastutil library，这个库提供了用primitive types实现的collection class

b, 避免含有大量小对象或pointer的嵌套数据结构

c, Consider using numeric IDs or enumeration objects instead of strings for keys

d, If you have less than 32 GB of RAM, set the JVM flag -XX:+UseCompressedOops to make pointers be four bytes instead of eight. You can add these options in spark-env.sh.

Serialized RDD Storage

使用MEMORY_ONLY_SER，在memory中cache序列化后的数据，降低内存使用，当然响应的访问速度会降低，由于需要反序列化

Garbage Collection Tuning

首先需要打开gc日志，
adding -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps to the Java options

Cache Size Tuning

默认Spark使用60% 的executor memory(spark.executor.memory)来cache RDDs.

也就是说只有40%的memory用于task执行，如果发现频繁gc或是oom，可以调低用于cache的比例，

conf.set("spark.storage.memoryFraction", "0.5")， 这样设成50%

Advanced GC Tuning

Spark做gc tuning的目标是，避免在task执行过程中发生full gc， 即需要让Young区足够容纳short-lived objects

a, 如果发生多次full gc或是OldGen已经接近full，说明内存不够，可以降低cache比例

b, 如果很多minor gc，但没有major gc，说明young区过小， 我们可以根据task dataset需要消耗内存来预估eden区，young区大小= eden区 × （4/3），因为要加上survivor区

c, 如果从hdfs读取数据，可以根据hdfs block大小来预估eden区大小，比如，如果解压比例3倍，4个tasks并行，block大小64M，那么eden区大小 = 3×4×64M

其他的一些考虑，

调整并发的level，通过增加并发来降低reduce task的内存消耗

用broadcast functionality来处理大的变量， data locality

本文章摘自博客园，原文发布日期：2015-04-21

微信关注我们

原文链接：https://yq.aliyun.com/articles/86088

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《深入理解Spark:核心思想与源码分析》——1.3节阅读环境准备

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第1章，第1.3节阅读环境准备，作者耿嘉安，更多章节内容可以访问云栖社区“华章社区”公众号查看 1.3　阅读环境准备准备Spark阅读环境，同样需要一台好机器。笔者调试源码的机器的内存是8 GB。源码阅读的前提是在IDE环境中打包、编译通过。常用的IDE有IntelliJ IDEA、Eclipse。笔者选择用Eclipse编译Spark，原因有二：一是由于使用多年对它比较熟悉，二是社区中使用Eclipse编译Spark的资料太少，在这里可以做个补充。在Windows系统编译Spark源码，除了安装JDK外，还需要安装以下工具。（1）安装Scala由于Spark 1.20版本的sbt里指定的Scala版本是2.10.4，具体见Spark源码目录下的文件projectplugins.sbt，其中有一行：scalaVersion := "2.10.4"。所以选择下载scala-2.10.4.msi，下载地址：http://www.scala-lang.org/download/。下载完毕，安装scala-2.10.4.ms...

2017-05-01

556

3.9　启动测量系统MetricsSystem MetricsSystem使用codahale提供的第三方测量仓库Metrics，有关Metrics的具体信息可以参考附录D。MetricsSystem中有三个概念： Instance：指定了谁在使用测量系统； Source：指定了从哪里收集测量数据； Sink：指定了往哪里输出测量数据。 Spark按照Instance的不同，区分为Master、Worker、Application、Driver和Executor。 Spark目前提供的Sink有ConsoleSink、CsvSink、JmxSink、MetricsServlet、GraphiteSink等。 Spark中使用MetricsServlet作为默认的Sink。 MetricsSystem的启动代码如下。 val metricsSyste

2017-05-01

718

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

Tuning Spark

Data Serialization

Memory Tuning

Tuning Data Structures

Serialized RDD Storage

Garbage Collection Tuning

《深入理解Spark:核心思想与源码分析》——1.3节阅读环境准备

深入理解Spark：核心思想与源码分析. 3.9　启动测量系统MetricsSystem

相关文章

发表评论

资源下载

Mario

Spring

Rocky Linux

Sublime Text

欢迎您来访！

Tuning Spark

Data Serialization

Memory Tuning

Tuning Data Structures

Serialized RDD Storage

Garbage Collection Tuning

《深入理解Spark:核心思想与源码分析》——1.3节阅读环境准备

深入理解Spark：核心思想与源码分析. 3.9 启动测量系统MetricsSystem

相关文章

发表评论

资源下载

Mario

Spring

Rocky Linux

Sublime Text

欢迎您来访！

深入理解Spark：核心思想与源码分析. 3.9　启动测量系统MetricsSystem