官宣|Apache Flink 1.19 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。与往常一样,这是一个充实的版本,包含了广泛的改进和新功能。总共有 162 人为此版本做出了贡献,完成了 33 个 FLIPs、解决了 600 多个问题。感谢各位贡献者的支持!
一、Flink SQL 提升
源表自定义并行度
现在,在 Flink 1.19 中,您可以通过选 scan.parallelism 设置自定义并行度,以调整性能。第一个可用的连接器是 DataGen( Kafka 连接器即将推出)。下面是一个使用 SQL Client 的示例:
-- set parallelism within the ddl CREATE TABLE Orders ( order_number BIGINT, price DECIMAL(32,2), buyer ROW<first_name STRING, last_name STRING>, order_time TIMESTAMP(3) ) WITH ( 'connector' = 'datagen', 'scan.parallelism' = '4' ); -- or set parallelism via dynamic table option SELECT * FROM Orders /*+ OPTIONS('scan.parallelism'='4') */;
更多信息
可配置的 SQL Gateway Java 选项
一个用于指定 Java 选项的新选项 env.java.opts.sql-gateway ,这样你就可以微调内存设置、垃圾回收行为和其他相关 Java 参数。
更多信息
使用 SQL 提示配置不同的状态 TTL
从 Flink 1.18 开始,Table API 和 SQL 用户可以通过 SQL 编译计划为有状态操作符单独设置状态存续时间 ( TTL )。在 Flink 1.19 中,用户可以使用 STATE_TTL 提示,以更灵活的方式直接在查询中为常规连接和分组聚合指定自定义 TTL 值。
这一改进意味着您不再需要修改编译后的计划,就能为这些常用操作符设置特定的 TTL。引入 STATE_TTL 提示后,您可以简化工作流程,并根据操作要求动态调整 TTL。
下面是一个例子:
-- set state ttl for join SELECT /*+ STATE_TTL('Orders'= '1d', 'Customers' = '20d') */ * FROM Orders LEFT OUTER JOIN Customers ON Orders.o_custkey = Customers.c_custkey; -- set state ttl for aggregation SELECT /*+ STATE_TTL('o' = '1d') */ o_orderkey, SUM(o_totalprice) AS revenue FROM Orders AS o GROUP BY o_orderkey;
更多信息
函数和存储过程支持命名参数
现在,在调用函数或存储过程时可以使用命名参数。使用命名参数时,用户无需严格指定参数位置,只需指定参数名称及其相应值即可。同时,如果没有指定非必要参数,这些参数将默认为空值。
下面是一个使用命名参数定义带有一个必选参数和两个可选参数的函数的示例:
public static class NamedArgumentsTableFunction extends TableFunction<Object> { @FunctionHint( output = @DataTypeHint("STRING"), arguments = { @ArgumentHint(name = "in1", isOptional = false, type = @DataTypeHint("STRING")), @ArgumentHint(name = "in2", isOptional = true, type = @DataTypeHint("STRING")), @ArgumentHint(name = "in3", isOptional = true, type = @DataTypeHint("STRING"))}) public void eval(String arg1, String arg2, String arg3) { collect(arg1 + ", " + arg2 + "," + arg3); } }
在 SQL 中调用函数时,可以通过名称指定参数,例如:
SELECT * FROM TABLE(myFunction(in1 => 'v1', in3 => 'v3', in2 => 'v2'))
可选参数也可以省略:
SELECT * FROM TABLE(myFunction(in1 => 'v1'))
更多信息
Window TVF 聚合功能
-
支持流模式下的 SESSION Window TVF
现在,用户可以在流模式下使用 SESSION Window TVF。下面是一个简单的示例:
-- session window with partition keys SELECT * FROM TABLE( SESSION(TABLE Bid PARTITION BY item, DESCRIPTOR(bidtime), INTERVAL '5' MINUTES)); -- apply aggregation on the session windowed table with partition keys SELECT window_start, window_end, item, SUM(price) AS total_price FROM TABLE( SESSION(TABLE Bid PARTITION BY item, DESCRIPTOR(bidtime), INTERVAL '5' MINUTES)) GROUP BY item, window_start, window_end;
-
Window TVF 聚合支持处理更新流
窗口聚合运算符(基于窗口 TVF 函数生成)现在可以顺利处理更新流(如 CDC 数据源等)。建议用户从传统的 窗口聚合迁移到新语法,以获得更全面的功能支持。
更多信息
新的 UDF 类型:AsyncScalarFunction
常见的 UDF 类型 ScalarFunction 可以很好地处理 CPU 密集型操作,但对于 IO 密集型或其他长时间运行的计算则效果不佳。在 Flink 1.19 中,我们新增了 AsyncScalarFunction ,它是一种用户定义的异步 ScalarFunction ,允许异步发出并发函数调用。
更多信息
Regular Join 支持 MiniBatch 优化
消息放大是 Flink 中执行级联连接时的一个痛点,现在在 Flink 1.19 中得到了解决,新的 MiniBatch 优化可用于 Regular Join,以减少此类级联连接场景中的中间结果。
更多信息
二、Runtime & Coordination 提升
批作业支持源表动态并行度推导
在 Flink 1.19 中,我们支持批作业的源表动态并行度推导,允许源连接器根据实际消耗的数据量动态推断并行度。
与以前的版本相比,这一功能有了重大改进,以前的版本只能为源节点分配固定的默认并行度。
源连接器需要实现推理接口,以启用动态并行度推理。目前,FileSource 连接器已经开发出了这一功能。
此外,配置 execution.batch.adaptive.auto-parallelism.default-source-parallelism 将被用作源并行度推理的上限。现在,它不会默认为 1。取而代之的是,如果没有设置,将使用通过配置 execution.batch.adaptive.auto-parallelism.max-parallelism 设置的允许并行度上限。如果该配置也未设置,则将使用默认的并行度设置 parallelism.default 或 StreamExecutionEnvironment#setParallelism() 。
更多信息
Flink Configuration 支持标准 YAML 格式
从 Flink 1.19 开始,Flink 正式全面支持标准 YAML 1.2 语法。默认配置文件已改为 config.yaml ,放置在 conf/directory 中。如果用户想使用传统的配置文件 flink-conf.yaml ,只需将该文件复制到 conf/directory 中即可。一旦检测到传统配置文件 flink-conf.yml ,Flink 就会优先使用它作为配置文件。而在即将推出的 Flink 2.0 中, flink-conf.yaml 配置文件将不再起作用。
更多信息
在 Flink Web 上 Profiling JobManager/TaskManager
在 Flink 1.19 中,我们支持在 JobManager/TaskManager 级别触发 Profile,允许用户创建具有任意时间间隔和事件模式(由 async-profiler 支持)的 Profile 实例。用户可以在 Flink Web UI 中轻松提交剖析并导出结果。
例如,用户只需在确定存在性能瓶颈的候选任 JobManager/TaskManager 后,通过 "Create Profiling Instance" 提交一个具有指定周期和模式的 Profile 实例:
Profile 结果:
更多信息
新增管理员 JVM 选项配置选项
有一组管理员 JVM 选项可供使用,它们是用户设置的额外 JVM 选项的前缀,用于全平台范围的 JVM 调整。
更多信息
三、Checkpoints 提升
Source 反压时支持使用更大的 Checkpointing 间隔
引入 ProcessingBacklog 的目的是为了说明处理记录时应采用低延迟还是高吞吐量。ProcessingBacklog 可由 Source 算子设置,并可用于在运行时更改作业的检查点间隔。
更多信息
CheckpointsCleaner 并行清理单个检查点状态
现在,在处置不再需要的检查点时,ioExecutor 会并行处置每个状态句柄/状态文件,从而大大提高了处置单个检查点的速度(对于大型检查点,处置时间可从 10 分钟缩短至 < 1 分钟)。可以通过设置为 false 恢复旧版本的行为。
更多信息
通过命令行客户端触发 Checkpoints
命令行界面支持手动触发检查点。
使用方法:
./bin/flink checkpoint $JOB_ID [-full]
如果指定"-full "选项,就会触发完全检查点。否则,如果作业配置为定期进行增量检查点,则会触发增量检查点。
更多信息
四、Connector API提升
与 Source API 一致的 SinkV2 新接口
在 Flink 1.19 中,SinkV2 API 做了一些修改,以便与 Source API 保持一致。以下接口已被弃用: TwoPhaseCommittingSink、StatefulSink 、WithPreWriteTopology、WithPreCommitTopology、WithPostCommitTopology 。引入了以下新接口 CommitterInitContext 、CommittingSinkWriter 、 WriterInitContext 、StatefulSinkWrite。更改了以下接口方法的参数: Sink#createWriter 。 在 1.19 版本发布期间,原有接口仍将可用,但会在后续版本中移除。
更多信息
用于跟踪 Committables 状态的新 Committer 指标
修改了 TwoPhaseCommittingSink#createCommitter 方法的参数化,新增了 CommitterInitContext 参数。原来的方法在 1.19 版本发布期间仍然可用,但会在后续版本中移除。
更多信息
五、重要API弃用
为了给 Flink 2.0 版本做准备,社区决定正式废弃多个已接近生命周期终点的 API。
-
Flink's org.apache.flink.api.common.time.Time 现已被正式弃用,并将在 Flink 2.0 中删除。引入了支持 Duration 类的方法,以取代已废弃的基于 Time 的方法。
-
org.apache.flink.runtime.jobgraph.RestoreMode#LEGACY 已被弃用。请使用 RestoreMode#CLAIM 或 RestoreMode#NO_CLAIM 模式,以在还原时获得清晰的状态文件所有权。
-
旧的解决模式兼容性的方法已被弃用,请参考迁移说明迁移至新方法: Migrating from deprecated TypeSerializerSnapshot#resolveSchemaCompatibility(TypeSerializer newSerializer) before Flink 1.19.
-
通过硬代码配置序列化行为已被弃用,例如 ExecutionConfig#enableForceKryo。请使用选 pipeline.serialization-config 、pipeline.force-avr 、pipeline.force-kryo 和 pipeline.generic-types。实例级序列化器的注册已被弃用,请使用类级序列化器。
-
除了 getString(String key, String defaultValue) 和 setString(String key, String value),我们已废弃所有 setXxx 和 getXxx 方法,如:setInteger 、setLong 、getInteger 和 getLong 等。 建议用户和开发人员使用以 ConfigOption 代替字符串作为键的 get 和 set 方法。
-
StreamExecutionEnvironment 、CheckpointConfig 和 ExecutionConfig 中的非 ConfigOption 对象及其相应的 getter/setter 接口现已废弃。这些对象和方法计划在 Flink 2.0 中删除。已废弃的接口包括重启策略( RestartStrategy )、检查点存储( CheckpointStorage )和状态后端( StateBackend )的getter 和 setter 方法。
-
org.apache.flink.api.common.functions.RuntimeContext#getExecutionConfig 现已被正式弃用,并将在 Flink 2.0 中删除。请使用 getGlobalJobParameters() 或 isObjectReuseEnabled()。
-
org.apache.flink.api.common.functions.RichFunction#open(Configuration parameters) 方法已被弃用,并将在未来版本中删除。我们鼓励用户迁移到新的RichFunction#open(OpenContext openContext)。
-
org.apache.flink.configuration.AkkaOptions 已被弃用,取而代之的是 RpcOptions 。
六、升级说明
Apache Flink 社区努力确保升级过程尽可能平稳, 但是升级到 1.19 版本可能需要用户对现有应用程序做出一些调整。请参考 Release Notes 获取更多的升级时需要的改动与可能的问题列表细节。
贡献者列表
Flink Forward Asia 2023
本届 Flink Forward Asia 更多精彩内容,可微信扫描图片二维码观看全部议题的视频回放及 FFA 2023 峰会资料!
更多内容
活动推荐
阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
59 元试用 实时计算 Flink 版(3000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Vue.js 应用实现监控可观测性最佳实践
本文由观测云团队编写~ 前言 Vue 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建,并提供了一套声明式的、组件化的编程模型,帮助你高效地开发用户界面。无论是简单还是复杂的界面,Vue 都可以胜任。 TinyPro 是一套使用 Vue 编写的中后台管理后台框架,官网地址:https://www.opentiny.design/vue-pro/docs/start , 下面以 TinyPro 为例来接入如何实现 Vue 应用的可观测性。 环境信息 Node 版本 > 10 接入方案 准备工作 注册观测云账号(https://auth.guance.com/businessRegister) 安装了 vue( https://cn.vuejs.org/guide/quick-start.html ); TinyCli(https://www.opentiny.design/tiny-cli/docs/start) 第一步:在观测云创建应用 这里面的就是配置代码,后面会用到。 第二步:下载 TinyPro 管理后台 t...
- 下一篇
数据库只追求性能是不够的!
那些成功的数据库公司没有一家是通过性能比竞争对手更快而成功的。 作者:JORDAN TIGANI,DuckDB 公司 MotherDuck 联合创始人&CEO 本文和封面来源:https://motherduck.com/,爱可生开源社区翻译。 本文约 4500 字,预计阅读需要 15 分钟。 论数据库性能崇拜 从我在西雅图的家到我们在旧金山的办公室大约需要 4.5 小时。假设您建造了一架高超音速飞机,其最高速度比普通波音 737-MAX 快 10 倍(无论是否有额外的防风靠窗座椅)。当你考虑乘 Uber 去机场、排队安检、登机、在停机坪上滑行、起飞和降落、等待登机口、等待行李以及乘优步去办公室之后,你就已经完成了一些惊人的壮举工程,但可能只缩短了 20% 的总行程时间。很好,但我仍然参加不上上午 10 点的会议。 数据库行业一直专注于制造更快的飞机。与此同时,安检队伍越来越长,行李也经常丢失。如果您的数据位于有点不稳定的 CSV 文件中,或者您想要提出的问题很难用 SQL 表述,那么可能理想的查询优化器也无法帮助您。 性能是像我这样的数据库迷用来衡量数据库的最常见指标,并且像...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS关闭SELinux安全模块
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Linux系统CentOS6、CentOS7手动修改IP地址
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16