Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持
引言
Apache Flink 社区很开心地宣布,在经过4个月的版本开发之后,Flink CDC 3.4.0 版本已经正式发布。Flink CDC 是流行的流式数据集成框架,CDC 3.4.0 版本强化了框架对于高频表结构变更的支持,框架支持了 batch 执行模式,新增 Apache Iceberg Sink 连接器支持,用户可以使用 Flink CDC 将数据库数据全增量一体化实时写入 Iceberg 数据湖。我们推荐社区用户升级到 Flink CDC 3.4.0 版本。
一、版本数据
Flink CDC 3.4.0 版本吸引了51位社区贡献者,累计完成259次代码提交,关闭65个 issue。这些代码贡献主要分布在连接器组件、运行时引擎、transform 等模块。
图-1: Flink CDC 3.4 版本数据
现在,您可以访问 Flink CDC Release 页面[1] 下载 Flink CDC 3.4.0 的二进制包,也可以在文档网站[2] 上访问最新版本的文档。如果您在使用时遇到任何问题,欢迎在 Flink 用户邮件列表[3]、用户钉群、GitHub Discussions[4] 或 Flink JIRA 看板[5] 上提出问题或发起讨论。
二、版本概览
此次发版,Flink CDC 重点改进和功能如下:
图-2: Flink CDC 3.4 版本概览
Flink CDC 3.4.0 为数据集成 Pipeline 作业支持了 batch 执行模式,batch 执行模式可以高效实现全量数据同步的需求;在表结构演进功能上完成了高频表结构变更场景的性能优化;同时增加了对 YARN Application 提交模式的支持;新增了 Iceberg Sink 连接器,支持 CDC 数据实时写入 Iceberg,此外还对 Paimon、MySQL 和 MongoDB 连接器做了完善和优化。
三、特性解读
3.1 Flink CDC 框架
Batch 执行模式
在Flink CDC 3.4版本中,CDC Pipeline 框架提供了 execution.runtime-mode
参数,当配置该参数为 BATCH
时,会创建并提交 Flink batch 作业。在只需执行全量数据同步的业务场景下,使用batch模式能够有效降低作业资源消耗,提升数据同步效率。
目前仅支持 MySQL Source 连接器对接到了batch模式,且需将启动参数配置为 snapshot(仅快照)模式。
Schema Evolution 优化
Flink CDC 3.4 版本优化了多表同步情况下,作业初始化阶段的协调耗时,并修复了高频率执行表结构变更时,偶现的作业挂起问题,同时优化了作业异常时打印更多表结构和数据信息便于问题分析排查。
YARN Application 部署模式
Flink CDC CLI 在3.4版本中支持通过 ./bin/flink-cdc.sh -t yarn-application
命令创建一个新的 yarn-application
部署作业。在此模式下,框架支持创建一个专用的 JobManager 并提交作业,并在作业执行完成后自动销毁。
3.2 Flink CDC 连接器
Iceberg Pipeline Connector
Apache Iceberg 业界领先的数据湖格式,Flink CDC 3.4.0版本提供了Iceberg Sink 连接器,现在用户可以使用 CDC YAML 作业将来自数据库的CDC数据高效写入到 Apache Iceberg 中,构建基于 Iceberg 的实时数据湖。
Paimon Pipeline Connector
Paimon 是国内实时数据湖的主流格式,在Flink CDC 3.4版本中,社区升级 Paimon 版本到 1.0.1,这是 Apache Paimon 1.0 的稳定版本。同时优化了checkpoint 阶段执行 commit 的用时,新增对无主键表的写入支持,同时还支持写入完整的 Changelog。
MySQL CDC Connector
MySQL作为重点连接器,在 Flink CDC 3.4版本中,社区支持了将变更流转换为仅追加(Append Only)流,从而实现逻辑删除的功能。同时提供优先处理无界的分片的配置,能够有效避免全量阶段运行时间过长导致 TaskManager 处理最后一个大分片引发的 OOM 问题。
MongoDB CDC Connector
针对社区用户对 MongoDB 对 oplog 中的操作类型访问需求,CDC 3.4 版本对 MongoDB CDC 连接器增加 op_type
元数据,支持读取 oplog 中的操作类型。
3.3 Flink CDC 缺陷修复和改进
除了上述核心特性外,Flink CDC 3.4 版本也包含了多个缺陷修复和改进,包括:
-
修复了 Pipeline 作业在有状态重启后会重新推导表结构的问题。
-
修复了 Pipeline 作业在使用 transform 时不支持使用不满足 java 变量名规则字段的问题。
-
修复了 Pipeline 作业在使用 transform 时不支持覆盖表中已经存在的同名列的问题。
-
修复了 Pipeline 作业在 transform 中部分算术函数不支持处理 null 值的问题。
-
修复了 MySQL 连接器开启 scan.binlog.newly-added-table.enabled 时意外捕获其他表的问题等。
四、未来规划
Flink CDC 3.5 版本的规划已经在社区发起讨论,新的版本一方面将会继续聚焦社区用户的共性需求,完善Flink CDC 框架能力,如脏数据处理、数据限流等API设计;另一方面会丰富 Pipeline 连接器生态,在社区贡献者特别是海外贡献者的驱动下支持 PostgreSQL 等海外重点生态;同时面向AI时代,也会完善目前Flink CDC 已有的 AI model 能力,对接更多AI生态。
致谢
特别感谢以下 51 名开发者对 Flink CDC 3.4.0 版本作出的贡献(按字母排序)!:
911432, chenhongyu, ConradJam, Ferenc Csaky, gongzhongqiang, Hang Ruan, He Wang, hiliuxg, Hongshun Wang, Jason Zhang, Jiabao Sun, Junbo Wang, Jzjsnow, Kevin Caesar, Kevin Wang, Kunni, Leonard Xu, lidoudou1993, linjianchang, liuxiaodong, lvyanquan, lzshlzsh, MOBIN-F, moses, North Lin, Olivier, ouyangwulin, Petrichor, proletarians, qinghuanwang, Qingsheng Ren, Robin Moffatt, Runkang He, Sergei Morozov, Seung-Min Lee, Shawn Huang, stayrascal, Thorne, Timi, Umesh Dangat, Vincent-Woo, Vinh Pham, wenmo, Wink, wudi, Xin Gong, yohei yoshimuta, yuanoOo, yuxiqian, zhangzheng
[1] https://github.com/apache/flink-cdc/releases/tag/release-3.4.0
[2] https://nightlies.apache.org/flink/flink-cdc-docs-release-3.4/
[3] https://flink.apache.org/what-is-flink/community
[4] https://github.com/apache/flink-cdc/discussions
[5] https://issues.apache.org/jira/projects/FLINK/summary
更多内容
活动推荐
阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动: 新用户复制点击下方链接或者扫描二维码即可0元免费试用 Flink + Paimon 实时计算 Flink 版(3000CU*小时,3 个月内) 了解活动详情:https://free.aliyun.com/?utm_content=g_1000395379&productCode=sc

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Rybbit —— 开源 Google Analytics 替代品
Rybbit是 Google Analytics 的现代开源且隐私友好的替代方案。只需几分钟即可完成设置,并且使用起来非常直观。 主要特点 所有关键的网络分析指标,包括会话、独立用户、页面浏览量、跳出率、会话时长 无 Cookie 或用户跟踪 - 符合 GDPR 和 CCPA 可定制的目标、留存率、用户旅程和漏斗仪表板 跨 15 个以上维度的高级过滤 自定义事件 实时会话仪表板 3 级位置跟踪(国家 -> 地区 -> 城市)+ 高级地图可视化 实时仪表板 支持组织和无限数量的站点
- 下一篇
Mistral 重返开源阵营:发布超高效代码 AI 模型 Devstral
法国人工智能模型制造商 Mistral 在因其最新闭源模型 Medium3受到部分开源社区批评后,迅速回归开源路线。该公司近日与开源初创公司 All Hands AI(OpenDevin 的创建者)合作,推出了全新的开源语言模型 Devstral。这款拥有2400万参数的轻量级模型,专为代理 AI 软件开发而设计,其性能甚至在特定基准测试中超越了许多参数高达数十亿的竞争对手,包括一些闭源模型。 与传统侧重于代码补全或独立函数生成的 LLM 不同,Devstral 经过优化,能够充当完整的软件工程代理。这意味着它可以理解跨文件的上下文,浏览大型代码库,并解决实际的软件开发问题。更重要的是,Devstral 基于宽松的 Apache2.0许可证发布,允许开发者和组织自由地部署、修改和商业化该模型。 Mistral AI 研究科学家 Baptiste Rozière 强调,他们希望为开发者社区提供一款可以在本地私下运行并根据需求修改的开源工具,Apache2.0协议赋予了用户极大的自由度。 基于 Codestral 的成功迭代 Devstral 是 Mistral 以代码为中心的模型系列 C...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2全家桶,快速入门学习开发网站教程
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装