得物Flink内核探索实践

2024-08-15 328

一、前言

随着大数据技术的飞速发展，实时处理能力变得越来越重要。在众多实时处理框架中，Apache Flink以其强大的流处理能力和丰富的功能集，受到了广泛关注和应用。在实时业务日益增长的趋势下，这促使我们深入探索Flink的内核，以更好地保障Flink任务的维护。本次分享将重点介绍得物在Flink内核方面的探索与实践，探讨如何通过深度优化和定制，实现更加高效和稳定的数据处理能力。

二、读者收益

通过阅读本次分享，读者将获得以下收益：

深入理解Flink内核：了解Flink的核心架构和关键组件，掌握Flink内核的运行机制。
优化实践：学习得物在Flink优化方面的实战经验，包括如何通过参数调优和内核定制，提升系统性能。
问题解决方案：掌握处理Flink常见问题的方法和技巧，提高在实际项目中应对复杂场景的能力。
实时处理案例：通过实际案例，了解如何在复杂业务场景中应用Flink，实现高效的实时数据处理。
最佳实践：获得得物在Flink应用中的最佳实践建议，帮助在实际项目中少走弯路，提高开发效率。

无论你是刚接触Flink的初学者，还是有一定经验的开发者，相信通过本次分享，都能有所收获，进一步提升在实时数据处理方面的能力。

三、自研特性

自研调度器

Apache Flink是一个开源的流处理框架，调度器是其重要的一部分。

在调度器上，我们新增了一款集合社区各款调度器优点的DwScheduler。

SchedulerNG (interface)
   |
   +-- SchedulerBase (implements SchedulerNG)
         |
         +-- DefaultScheduler (extends SchedulerBase 默认资源调度器)
               |
               +-- AdaptiveBatchScheduler (extends DefaultScheduler 自适应批调度器)
                     |
                     +-- SpeculativeScheduler (extends AdaptiveBatchScheduler 预测执行调度器)
               |
               |
               +-- DwScheduler (extends DefaultScheduler 自研调度器)
   |
   +-- AdaptiveScheduler (implements SchedulerNG 自适应调度器)

在流任务生产环境中目前现有的调度并不很理想，在生产中我们常常遇到一些问题，例如：
- 任务JobGraph与资源调度没有直接的联系，难于变化和修改；
- 不能以TaskManager维度均衡分配所有task到所有slot上；
- 1.18以前没有直接动态扩缩容的接口、1.18以后也没有整体算子同时扩缩容的能力；
- 流任务调度器没有可以迁移task/Tm的迁移计算节点的能力。
DwScheduler整合了社区调度器的各项优点，并提供了很多适应我们生产情况的特性：
- 建立了JobGraph与资源之间的直接联系，用JSON可修改和表示流图信息和资源并进行调度；
- 能够均衡调度所有task到所有TaskManager上；
- 支持动态扩缩容各个算子，并且热更新资源规格的能力；
- 支持热迁移task/Tm的能力。

下面主要从上述的这四个特性上来重点讲解我们的成果。

简化资源调度

背景：常规通过配置任务的高级参数进行提交任务，不利于资源的拓展，以及用户想设置多个SlotSharingGroup也无法通用地实现。

SQL/DataStream任务都可通过我们的Flink编译器Generator编译完成后生成一个流图资源信息JSON。

调度器支持通过JobResourceProfile JSON信息来进行资源申请。
- JobResourceProfile的信息用户可自由编辑，同样我们也提供了便捷的UI给用户操作算子和流图的以及资源的配置。
- 我们支持配置算子的并行度、最大并行度、SlotSharingGroup，以及资源的CPU、MEM、堆外内存部分我们也做了合理的管理让用户只需要配置一个比例，自动化设置资源的堆外各项参数降低OOM的风险，简化了用户对资源配置的操作难度。
支持接收新的资源资源JobResourceProfile JSON重新调度任务，支持同时扩缩容多个Operator算子的并行度。
- 在JobManager里我们提供了接收资源变更的Handler；
- DwScheduler可以接收多元化的Service发起过来的资源变更请求；
- 并且它提供了六个回调接口，不同的Service可以通过实现它来执行不同的逻辑。
```
default void preRequestResource() {}

default void postRequestResource(Throwable throwable) {}

default void preRestart() {}

default void postRestart() {}

default void preDeploy() {}

default void postDeploy(Throwable throwable) {}
```

Flink支持通过资源JobResourceProfile+JobGraph流图提交任务，JM支持动态接收新的JobResourceProfile更新任务资源，可以按标签申请不同的资源机型。

均衡调度Task

背景：Flink的task分配是基于slot维度进行全局调度的，即使配置了cluster.evenly-spread-out-slots 也同样会有在Tm维度上的task分配不均衡的问题。

使用自研调度器的情况下，能够使用JobResourceProfile提前计算出每个TaskManager应该分配多少task，在此基础上我们实现了自己的DwSlotSharingStrategy，可以有效的按TaskManager来分配task个数，而不仅仅是在slot层面做到资源的均衡。

在同一个任务使用原生社区调度器和使用我们自研调度器，我们得出了一些数据效果，从Tm维度来看CPU使用均衡了许多。

从CPU使用率上来看，明显均衡了很多，减少了不均衡分配带来的性能瓶颈问题。

TaskManager热迁移

背景：在日常生产运维中，经常有需要迁移热点机器或故障机器的底层场景，Flink缺乏这部分的热迁移能力。

自研Scheduler为我们解决了这一问题，我们支持了热迁移TaskManager
- 同样使用DwScheduler提供的六个回调接口以及触发资源变更的请求来完成Tm的热迁移
- 热迁移的Service只需要对应地实现下它的功能，不必关心调度的流程

从投入生产迁移Tm资源的断流耗时情况来看，几乎能做到断流1~5s内的快速迁移：

TmRestart重启策略

背景：Flink社区只提供了FullRestart、RegionRestart，往往在生产环境中我们经常会遇到各种不可抗力Cancel用户的代码会超时或堆外有泄漏的情况。

为解决这一问题，我们在Restart层面增加了一种TmRestart策略：
- 我们将Tm Pod的主进程修改为常驻Shell，可以在Cancel超过一定时间能快速退出进程进行重启，也可以根据JM请求的重启参数直接触发TmRestart；
- 修改Pod的主进程我们需要解决一些问题如：信号量传递给子进程、进程返回码的协调与重新拉起；
- 另外我们也通过Shell主进程对Tm进程的IO探活、Process D监控等等；
- 在重启过程中会对zk有一定的重连，我们改造了这部分代码，尝试无法链接上一次的JM地址失败后才会去访问zk获取最新的leader地址。
同时我们也可以调整重新拉起的Tm进程的JVM参数
- 在特殊场景通过对Tm退出的异常原因进行分析，列如k8s判定是OOM或是容器等待内存回收的延时分布次数过高，判断重新拉起的Tm是否应该进行JVM参数适当调整。

TmRestart重启，可根据任务异常情况、作业配置等按需重启Tm进程，支持修改JVM的参数。

四、总结

本文主要介绍了以下内容：

Flink调度器的基本生产优化和改造。
重建Flink资源模型和支持热迁移等功能的特性介绍。
Flink的Task分配策略优化和重启逻辑新特性TmRestart。

*文 / 天然卷

本文属得物技术原创，更多精彩文章请看：得物技术

未经得物技术许可严禁转载，否则依法追究法律责任！

微信关注我们

原文链接：https://my.oschina.net/u/5783135/blog/15327322

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

GreatSQL 并行Load Data加快数据导入

GreatSQL 并行Load Data加快数据导入数据库信息数据库版本:GreatSQL 8.0.32-25 Clickhouse表需要导入到 GreatSQL 中，表数据量庞大所以选用导出CSV的方式。测试数据复现操作 load data MySQL load data 语句能快速将一个文本文件的内容导入到对应的数据库表中（一般文本的一行对应表的一条记录）。数据库应用程序开发中，涉及大批量数据需要插入时，使用 load data 语句的效率比一般的 insert 语句的高很多可以看成select ... into outfile语句的反操作，select ... into outfile将数据库表中的数据导出保存到一个文件中。 load data 语法 LOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'file_name' [REPLACE | IGNORE] INTO TABLE tbl_name [PARTITION (partition_name [, partition_name] ...)] [CHARA...

2024-08-14

333

前言实验室信息管理系统，即 LIMS（Laboratory Information Management System），它是由计算机和应用软件组成，能够完成实验室数据和信息的收集、分析、报告和管理。早期的 LIMS 系统大多基于计算机局域网，专门针对一个实验室的整体环境而设计，是一个包括了信号采集设备、数据通讯软件、数据库管理软件在内的高效集成系统。 LIMS 系统以实验室为中心，将实验室的业务流程、环境、人员、仪器设备、标物标液、化学试剂、标准方法、图书资料、文件记录、客户管理等等影响分析的数据因素有机结合起来，采用先进的计算机网络技术，数据库技术和标准化的实验室管理思想，组成一个全面、规范的管理体系，为实现分析数据网上调度、分析数据自动采集、快速分布、信息共享、分析报告无纸化、质量保证体系顺利实施、成本严格控制、人员量化考核、实验室管理水平整体提高等各方面提供技术支持，是连接实验室、采样现场、监管部门及客户信息的信息平台，同时引入先进的数理统计技术，如方差分析、相关和回归分析、显著性检验、累积和控制图、抽样检验等，协助职能部门及时发现和控制影响产品质量的关键因素。 LIMS 系...

2024-08-15

396

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。