102万行代码，1270 个问题，Flink 新版发布了什么？（附最佳实践电子书）-低调大师

102万行代码，1270 个问题，Flink 新版发布了什么？（附最佳实践电子书）

2020-02-23 624

作者：李钰（绝顶）

导读：Apache Flink 是公认的新一代开源大数据计算引擎，可以支持流处理、批处理和机器学习等多种计算形态，也是Apache 软件基金会和 GitHub 社区最为活跃的项目之一。

2019 年 1 月，阿里巴巴实时计算团队宣布将经过双十一历练和集团内部业务打磨的 Blink 引擎进行开源并向 Apache Flink 贡献代码，此后的一年中，阿里巴巴实时计算团队与 Apache Flink 社区密切合作，持续推进 Flink 对 Blink 的整合。

2 月 12 日，Apache Flink 1.10.0 正式发布，在 Flink 的第一个双位数版本中正式完成了 Blink 向 Flink 的合并。在此基础之上，Flink 1.10 版本在生产可用性、功能、性能上都有大幅提升。本文将详细为大家介绍该版本的重大变更与新增特性。

文末更有 Flink 实践精选电子书，现已开放免费下载~

下载地址

https://flink.apache.org/downloads.html

Flink 1.10 是迄今为止规模最大的一次版本升级，除标志着 Blink 的合并完成外，还实现了 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持（PyFlink）的重大优化等。

综述

Flink 1.10.0 版本一共有 218 名贡献者，解决了 1270 个 JIRA issue，经由 2661 个 commit 总共提交了超过 102 万行代码，多项数据对比之前的几个版本都有所提升，印证着 Flink 开源社区的蓬勃发展。

其中阿里巴巴实时计算团队共提交 64.5 万行代码，超过总代码量的 60%，做出了突出的贡献。

在该版本中，Flink 对 SQL 的 DDL 进行了增强，并实现了生产级别的 Batch 支持和 Hive 兼容，其中 TPC-DS 10T 的性能更是达到了 Hive 3.0 的 7 倍之多。在内核方面，对内存管理进行了优化。在生态方面，增加了 Python UDF 和原生 Kubernetes 集成的支持。后续章节将在这些方面分别进行详细介绍。

内存管理优化

在旧版本的 Flink 中，流处理和批处理的内存配置是割裂的，并且当流式作业配置使用 RocksDB 存储状态数据时，很难限制其内存使用，从而在容器环境下经常出现内存超用被杀的情况。

在 1.10.0 中，我们对 Task Executor 的内存模型，尤其是受管理内存（Managed Memory）进行了大幅度的改进（FLIP-49），使得内存配置对用户更加清晰：

此外，我们还将 RocksDB state backend 使用的内存纳入了托管范畴，同时可以通过简单的配置来指定其能使用的内存上限和读写缓存比例（FLINK-7289）。如下图所示，在实际测试当中受控前后的内存使用差别非常明显。

受控前的内存使用情况（share-slot）

受控后的内存使用情况（share-slot）

Batch 兼容 Hive 且生产可用

Flink 从 1.9.0 版本开始支持 Hive 集成，但并未完全兼容。在 1.10.0 中我们对 Hive 兼容性做了进一步的增强，使其达到生产可用的标准。具体来说，Flink 1.10.0 中支持：

Meta 兼容 - 支持直接读取 Hive catalog，覆盖 Hive 1.x/2.x/3.x 全部版本
数据格式兼容 - 支持直接读取 Hive 表，同时也支持写成 Hive 表的格式；支持分区表
UDF 兼容 - 支持在 Flink SQL 内直接调用 Hive 的 UDF，UDTF 和 UDAF

与此同时，1.10.0 版本中对 batch 执行进行了进一步的优化(FLINK-14133)，主要包括：

向量化读取 ORC (FLINK-14135)
基于比例的弹性内存分配 (FLIP-53)
Shuffle 的压缩 (FLINK-14845)
基于新调度框架的优化 (FLINK-14735)

在此基础上将 Flink 作为计算引擎访问 Hive 的 meta 和数据，在 TPC-DS 10T benchmark 下性能达到 Hive 3.0 的 7 倍以上。

SQL DDL 增强

Flink 1.10.0 支持在 SQL 建表语句中定义 watermark 和计算列，以 watermark 为例：

CREATE TABLEtable_name (
  WATERMARK FOR columnName AS <watermark_strategy_expression>
) WITH (
  ...
)

除此之外，Flink 1.10.0 还在 SQL 中对临时函数/永久函数以及系统/目录函数进行了明确区分，并支持创建目录函数、临时函数以及临时系统函数：

CREATE [TEMPORARY|TEMPORARY SYSTEM] FUNCTION
[IF NOT EXISTS] [catalog_name.][db_name.]function_name
AS identifier [LANGUAGE JAVA|SCALA]

Python UDF 支持

Flink 从 1.9.0 版本开始增加了对 Python 的支持（PyFlink），但用户只能使用 Java 开发的 User-defined-function (UDF) ，具有一定的局限性。在 1.10.0 中我们为 PyFlink 增加了原生 UDF 支持（FLIP-58），用户现在可以在 Table API/SQL 中注册并使用自定义函数，如下图所示：

同时也可以方便的通过 pip 安装 PyFlink：

pip install apache-flink

原生 Kubernetes 集成

Kubernetes (K8S) 是目前最为流行的容器编排系统，也是目前最流行的容器化应用发布平台。在旧版本当中，想要在 K8S 上部署和管理一个 Flink 集群比较复杂，需要对容器、算子及 kubectl 等 K8S 命令有所了解。

在 Flink 1.10 中，我们推出了对 K8S 环境的原生支持（FLINK-9953），Flink 的资源管理器会主动和 Kubernetes 通信，按需申请 pod，从而可以在多租户环境中以较少的资源开销启动 Flink，使用起来也更加的方便。

更多内容，参考 1.10.0 版本发布日志：

https://ci.apache.org/projects/flink/flink-docs-stable/release-notes/flink-1.10.html

结语

2019 年 1 月，阿里巴巴实时计算团队宣布 Blink 开源。整整一年之后，Flink 1.10.0 版本的发布宣告 Flink 和 Blink 的整合正式完成。我们践行着自己的诺言，开放源码，更相信社区的力量，相信社区是开源协作精神与创新的摇篮。我们也衷心希望有更多的志同道合的小伙伴加入我们，一起把 Apache Flink 做的越来越好！

福利

最后，送上福利：《Apache Flink 年度最佳实践》电子书免费下载啦！

一次性公布来自 bilibili、美团点评、小米、快手、OPPO、菜鸟、Lyft、Netflix 等 9 篇深度文章，揭秘一线大厂实时平台构建实践。不容错过的精品电子书，大数据工程师必读实战“真经”！点击下方链接，即刻下载！

免费下载
《Apache Flink 年度最佳实践》>>>

目录如下：

仅1年GitHub Star数翻倍，Apache Flink 做了什么？
Lyft基于Apache Flink的大规模准实时数据分析平台
Apache Flink在快手实时多维分析场景的应用
Bilibili基于Apache Flink的平台化探索与实践
美团点评基于 Apache Flink 的实时数仓平台实践
小米流式平台架构演进与实践
Netflix：Evolving Keystone to an Open Collaborative Real-time ETL Platform
OPPO 基于 Apache Flink 的实时数仓实践
菜鸟供应链实时数仓的架构演进及应用场景

微信关注我们

原文链接：https://yq.aliyun.com/articles/746046

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

DataWorks 2020-1 产品月刊

尊敬的DataWorks用户：您好，为了您更好地使用DataWorks产品，从2020年1月开始，Dataworks将每月推出产品月刊，为您提供最新的产品活动、功能更新、灰度功能邀测、大数据技术文章等各类信息，希望DataWorks为您提供高效的，一站式的大数据开发操作系统级体验。【产品活动】【2020】DataWorks云上直播周开启，连续开启线上直播内容，让在家期间也能通过通过线上的形式了解产品最佳实践与最新功能。活动回顾（不断更新中）【产品功能更新】 1.DataWorks数据保护伞功能开启商业化点击查看DataWorks数据保护伞功能将于2020年1月10日开启商业化，根据DataWorks目前增值版本的分级，数据保护伞也将提供不同的功能，您可以根据自身的业务场景，选择最合适的版本进行购买。 2.DataWorks数据质量功能更新点击查看DataWorks数据质量模块是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。这次数据质量发布包括质量报告自定义、规则模板库、动态阈值、问题处理及反馈等新功能，得让规则创建更加便捷、数据质量更加可控！ 3.DataWorks钉...

2020-02-23

712

点击免费下载《Apache Flink 年度最佳实践》>>> 《Apache Flink 年度最佳实践》公开下载啦！首次一次性公布来自B站、美团点评、小米、快手、菜鸟、Lyft、Netflix 等精彩内容，9篇深度文章揭秘一线大厂实时平台构建实践。不容错过的精品电子书，大数据工程师必读实战“真经”！   Flink 作为业界公认为最好的流计算引擎，不仅仅局限于做流处理，而是一套兼具流、批、机器学习等多种计算功能的大数据引擎，以其高吞吐低延时的优异实时计算能力、支持海量数据的亚秒级快速响应帮助企业和开发者实现数据算力升级，并成为阿里、腾讯、滴滴、美团、字节跳动、Netflix、Lyft 等国内外知名公司建设实时计算平台的首选。 2020 首册 Apache Flink 年度最佳实践电子书来啦！甄选 Apache Flink 及大数据领域顶级盛会 Flink Forward Asia 大会嘉宾精彩分享，覆盖国内外一线大厂实时平台构建的经验分享与实时数仓的应用实践，为你揭秘实时计算平台从无到有到有、持续优化的详细细节！目录如下：仅1年GitHub Star数翻倍，Ap...

2020-02-23

721

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。