「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配

2021-12-15 470

前言

资源是影响 Spark 应用执行效率的一个重要因素。Spark 应用中真正执行 task 的组件是 Executor，可以通过spark.executor.instances 指定 Spark 应用的 Executor 的数量。在运行过程中，无论 Executor上是否有 task 在执行，都会被一直占有直到此 Spark 应用结束。

上篇我们从动态优化的角度讲述了 Spark 3.0 版本中的自适应查询特性，它主要是在一条 SQL 执行过程中不断优化执行逻辑，选择更好的执行策略，从而达到提升性能的目的。本篇我们将从整个 Spark 集群资源的角度讨论一个常见痛点：资源不足。

在 Spark 集群中的一个常见场景是，随着业务的不断发展，需要运行的 Spark 应用数和数据量越来越大，靠资源堆砌的优化方式也越来越显得捉襟见肘。当一个长期运行的 Spark 应用，若分配给它多个 Executor，可是却没有任何 task 分配到这些 Executor 上，而此时有其他的 Spark 应用却资源紧张，这就造成了资源浪费和调度不合理。

要是每个 Spark 应用的 Executor 数也能动态调整那就太好了。

动态资源分配（Dynamic Resource Allocation）就是为了解决这种场景而产生。Spark 2.4 版本中 on Kubernetes 的动态资源并不完善，在 Spark 3.0 版本完善了 Spark on Kubernetes 的功能，其中就包括更灵敏的动态分配。我们 Erda 的 FDP 平台（Fast Data Platform）从 Spark 2.4 升级到 Spark 3.0，也尝试了动态资源分配的相关优化。本文将针对介绍 Spark 3.0 中 Spark on Kubernetes 的动态资源使用。

原理

一个 Spark 应用中如果有些 Stage 稍微数据倾斜，那就有大量的 Executor 是空闲状态，造成集群资源的极大浪费。通过动态资源分配策略，已经空闲的 Executor 如果超过了一定时间，就会被集群回收，并在之后的 Stage 需要时可再次请求 Executor。

如下图所示，固定 Executor 个数情况，Job1 End 和 Job2 Start 之间，Executor 处于空闲状态，此时就造成集群资源的浪费。

开启动态资源分配后，在 Job1 结束后，Executor1 空闲一段时间便被回收；在 Job2 需要资源时再申Executor2，实现集群资源的动态管理。

动态分配的原理很容易理解：“按需使用”。当然，一些细节还是需要考虑到：

何时新增/移除 Executor
Executor 数量的动态调整范围
Executor 的增减频率
Spark on Kubernetes 场景下，Executor 的 Pod 销毁后，它存储的中间计算数据如何访问

这些注意点在下面的参数列表中都有相应的说明。

参数一览

spark.dynamicAllocation.enabled=true #总开关，是否开启动态资源配置，根据工作负载来衡量是否应该增加或减少executor，默认false

spark.dynamicAllocation.shuffleTracking.enabled=true #spark3新增，之前没有官方支持的on k8s的Dynamic Resouce Allocation。启用shuffle文件跟踪，此配置不会回收保存了shuffle数据的executor

spark.dynamicAllocation.shuffleTracking.timeout #启用shuffleTracking时控制保存shuffle数据的executor超时时间，默认使用GC垃圾回收控制释放。如果有时候GC不及时，配置此参数后，即使executor上存在shuffle数据，也会被回收。暂未配置

spark.dynamicAllocation.minExecutors=1 #动态分配最小executor个数，在启动时就申请好的，默认0

spark.dynamicAllocation.maxExecutors=10 #动态分配最大executor个数，默认infinity

spark.dynamicAllocation.initialExecutors=2 #动态分配初始executor个数默认值=spark.dynamicAllocation.minExecutors

spark.dynamicAllocation.executorIdleTimeout=60s #当某个executor空闲超过这个设定值，就会被kill，默认60s

spark.dynamicAllocation.cachedExecutorIdleTimeout=240s #当某个缓存数据的executor空闲时间超过这个设定值，就会被kill，默认infinity

spark.dynamicAllocation.schedulerBacklogTimeout=3s #任务队列非空，资源不够，申请executor的时间间隔，默认1s（第一次申请）

spark.dynamicAllocation.sustainedSchedulerBacklogTimeout #同schedulerBacklogTimeout，是申请了新executor之后继续申请的间隔，默认=schedulerBacklogTimeout（第二次及之后）

spark.specution=true #开启推测执行，对长尾task，会在其他executor上启动相同task，先运行结束的作为结果

实战演示

无图无真相，下面我们将动态资源分配进行简单演示。

1.配置参数

动态资源分配相关参数配置如下图所示：

如下图所示，Spark 应用启动时的 Executor 个数为 2。因为配置了

spark.dynamicAllocation.initialExecutors=2

<center>![5.png](https://ucc.alicdn.com/pic/developer-ecology/d8b8fffe6179483b8fe0ae153fb88d68.png)</center>

运行一段时间后效果如下，executorNum 会递增，因为空闲的 Executor 被不断回收，新的 Executor 不断申请。

2. 验证快慢 SQL 执行

使用 SparkThrfitServer 会遇到的问题是一个数据量很大的 SQL 把所有的资源全占了，导致后面的 SQL 都等待，即使后面的 SQL 只需要几秒就能完成。我们开启动态分配策略，再来看 SQL 执行顺序。

先提交慢 SQL：

再提交快 SQL：

如下图所示，开启动态资源分配后，因为 SparkThrfitServer 可以申请新的 Executor，后面的 SQL 无需等待便可执行。Job7（慢 SQL）还在运行中，后提交的 Job8（快 SQL）已完成。这在一定程度上缓解了资源分配不合理的情况。

3. 详情查看

我们在 SparkWebUI 上可以看到动态分配的整个流程。

登陆 SparkWebUI 页面，Jobs -> Event Timeline，可以看到 Driver 对整个应用的 Executor 调度。如下图所示，显示了每个 Executor 的创建和回收。

同时也能看到此 Executor 的具体创建和回收时间。

在 Executors 标签页，我们可以看到所有历史 Executor 的当前状态。如下图所示，之前的 Executor 都已被回收，只有 Executor-31 状态为 Active。

总结

动态资源分配策略在空闲时释放 Executor，繁忙时申请 Executor，虽然逻辑比较简单，但是和任务调度密切相关。它可以防止小数据申请大资源，Executor 空转的情况。在集群资源紧张，有多个 Spark 应用的场景下，可以开启动态分配达到资源按需使用的效果。

以上是我们在 Spark 相关优化的一点经验，希望能够对大家有所帮助😄。

注：文中部分图片源自于网络，侵删。

更多技术干货请关注【尔达 Erda】公众号，与众多开源爱好者共同成长～

微信关注我们

原文链接：https://my.oschina.net/erdateam/blog/5369860

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Svelte入门——Web Components实现跨框架组件复用（二）

使用** Svelte 开发 VUE 和 React **都支持的自定义单元格组件在上节中，我们一起了解了如何使用Svelte封装Web Component，从而实现在不同页面间使用电子表格组件。 Svelte封装组件跨框架复用，带来的好处也十分明显： 1、使用框架开发，更容易维护 2、发布后没有框架依赖，其他任何场景都可以使用 3、发布的Web Component体积小这些得天独厚的优势，使得Svelte进行组件封装有着格外优势。之前我们了解了如何在不同页面间，自由使用电子表格组件。那如果要真正实现跨越不同的框架，使用相同的表格组件，该怎么做呢？接着我们接着上节内容，继续为大家介绍，封装完成电子表格组件后，如何跨框架让电子表格组件在原生环境和各种框架中都可以使用。跨框架组件开发一、使用Svelte开发AutoComplete Web Component Svelte如今的生态很丰富，通过搜索我们可以找到一款Svelte开发的AutoComplete的组件，地址：https://github.com/pstanoev/simple-svelte-autocomplete。我...

2021-12-15

481

摘要：文将介绍一个代码提交辅助工具SmartCommit，其主要功能是通过杂糅变更分解算法自动生成分组提交方案，接受开发者的反馈和交互式调整，渐进式地引导和辅助开发者做出符合最佳实践的原子提交。本文分享自华为云社区《有了代码变更分解提交工具SmartCommit，再也不担心复合提交了》，作者：敏捷的小智。在群体协同的软件开发中，代码提交作为开发者最频繁的日常操作之一，有必要遵循“代码提交原子性”这一最佳实践。然而，多项研究发现，在实际的开源和工业项目中普遍存在“复合提交”现象，即开发者经常将一段时间内做出的所有代码变更一次性提交，即使其中的代码修改包含了多种不相关的变更意图或对应于多个开发和维护任务。本文将介绍一个代码提交辅助工具SmartCommit [1]，其主要功能是通过杂糅变更分解算法自动生成分组提交方案，接受开发者的反馈和交互式调整，渐进式地引导和辅助开发者做出符合最佳实践的原子提交。代码提交的原子性代码变更提交是以Git为代表的版本管理系统基础功能，也是开发者最频繁的日常操作之一。在群体参与的软件开发和维护中，个体开发者从不同的目的出发对代码做出变更，被Git以代...

2021-12-15

542

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。