Flink 消息聚合处理方案-低调大师

Flink 消息聚合处理方案

2020-04-19 595

微博机器学习平台使用 Flink 实时处理用户行为日志和生成标签，并且在生成标签后写入存储系统。为了降低存储系统的 IO 负载，有批量写入的需求，同时对数据延迟也需要进行一定的控制，因此需要一种有效的消息聚合处理方案。

在本篇文章中我们将详细介绍 Flink 中对消息进行聚合处理的方案，描述不同方案中可能遇到的问题和解决方法，并进行对比。

基于 flatMap 的解决方案

这是我们能够想到最直观的解决方案，即在自定义的 flatMap 方法中对消息进行聚合，伪代码如下：

对应的作业拓扑和运行状态如下：

该方案的优点如下：

逻辑简单直观，各并发间负载均匀。
flatMap 可以和上游算子 chain 到一起，减少网络传输开销。
使用 operator state 完成 checkpoint，支持正常和改并发恢复。

与此同时，由于使用 operator state，因此所有数据都保存在 JVM 堆上，当数据量较大时有 GC/OOM 风险。

使用 Count Window 的解决方案

对于大规模 state 数据，Flink 推荐使用 RocksDB backend，并且只支持在 KeyedStream 上使用。与此同时，KeyedStream 支持通过 Count Window 来实现消息聚合，因此 Count Window 成为第二个可选方案。

由于需要使用 KeyedStream，我们面临的第一个问题就是如何生成 key。一个比较自然的想法是直接使用随机数，伪代码示例如下：

对应的作业拓扑如下：

然而实际上线测试时出现了数据倾斜，不同并发间会出现负载不均，部分 task 接收不到数据从而 TPS 为 0:

在我们的场景下，除了有批量写入降低 IO 的需求，对数据延迟也需要控制，当 key set 太大时，每个 key 累积指定数据条数的时间将增加，会导致数据写入的延迟增大，因此我们需要控制 key set 的大小。经过分析，当 key set 较小时，Flink 默认的数据分发策略在并发间分布不均，从而导致了上述数据倾斜的问题。下面我们从源码级别对此进行说明。

首先，Flink 为了保证从 state 中恢复数据时产生最小的 IO，引入了 key group 的概念。Key group 数目等于最大并发数（max parallelism），取值范围是 128-32768。当做数据分发的时候，key 会按照规则被分发到 key group 里面，相关代码如下所示：

keyGroup->KeyGroupRangeAssignment.assignToKeyGroup(key,maxParallelism);

然后，key group 会按照规则被分发到每个 task 上，代码示例如下：

Task->String.valueOf(KeyGroupRangeAssignment.computeOperatorIndexForKeyGroup(maxParallelism, parallelism, keyGroup));

通过 debug 可以发现，当 key 的数量较小时，该分发策略会导致 key 在 task 之间分配不均匀，测试代码如下：

输出结果如下：

{0=4, 1=4, 2=1}
{0=651, 1=686, 2=710}

可以看到，当只有 10 个 key 时，并发间分布很不均匀；但当 key 的数量增加到 2048 时，就相对均匀了。

在了解了 key 的分发策略之后，我们可以相应的调整 key 的生成规则，来达到指定并发度和 key set 大小前提下的数据均匀，如下述代码所示：

我们利用 maxParallelism 和 parallelism 生成 key，并将其存储到一个大小为 parallelism 的 map 里，以 taskid 作为 map key ，每个 task 对应的 key list 作为 value，来保证每个 taskid 对应的 list 都存储了相同数量的 key。

最后，再将 map 打平，存储到一个数组里。在使用的时候，我们可以从该数组里随机取数来作为key，就能达到平均分配的目的了。

该方案的执行效果如下：

可以看到数据倾斜的问题得以解决，每个任务的负载都比较均匀。但需要注意的是由于引入了 key by，因此会有数据 shuffle，对比 flatmap 方案会有额外的网络开销。另外由于生成 key 的规则和实际并发度有关，因此该方案不支持改并发恢复，或者说如果修改并发，那么在 restore 的时候会发生数据错乱的问题，这一点需要尤为注意。

方案对比和总结

最后我们将两种解决方案的优缺点对比总结如下：

在数据量不大且内存充足的情况下，建议使用 flatmap 方案；在数据量较大且可以保证不修改并发的情况下，建议使用 count window 方案并使用 RocksDB 进行 state数据存储；在数据量较大且需要修改并发的情况下，当前给出的两种方案都无法解决，需要寻求新的解决方案。

作者介绍：

曹富强、张颖，微博机器学习研发中心-系统工程师。现负责微博机器学习平台数据计算模块，主要涉及实时计算 Flink、Storm、Spark Streaming，离线计算 Hive、Spark 等。目前专注于 Flink 在微博机器学习场景的应用。

微信关注我们

原文链接：https://yq.aliyun.com/articles/756163

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

最佳实践 | Flink Forward 全球会议抢先看！

来了！我们把 Apache 顶级项目盛会搬到线上，4月25-26日，Flink Forward 全球在线会议精华版直播将正式上线，该系列直播均为中文版，精选大会优质内容由 Apache Flink 核心贡献者们对原版英文 talk 进行翻译及解说，您可直接免费在线观看！那么，这场直播究竟有哪些值得期待的精彩内容？Flink 社区将按照会议议程安排，以半天为单位详细介绍每场直播的核心内容及亮点。 4/25 10:00-12:00,直播看什么圆桌 | Keynote Session by Ververica 去年 Flink Forward Asia，Stephan 现场分享了他对 Flink 作为应用服务场景（Applications and Services）通用引擎的展望和规划。简而言之，他认为 Flink 除了能够做到批流一体，Flink 框架对于事件驱动的在线应用也可以有效甚至更好的支持。本次 Flink Forward 全球在线会议由 Stephan 和 Konstantin 共同分享，他们又将公布哪些社区最新动向？作为此次直播的神秘 talk，请一起期待直播解说！分...

2020-04-18

716

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！在全球都开启远程办公、远程上课之际，一位外国工程师受不了每天的视频会议，于是用 AI 技术「克隆」了一个自己，替他去开会。而这项技术如果被学生们所用，那么后果…… 这场席卷全球的疫情，各个公司改为远程办公，各大高校也相继关闭校园，转为在线网课。改变了全球的工作方式，也改变了广大学生上课、答辩甚至毕业方式。但远程办公、网课的局限性，让一些人借机想出了五花八门的「开小差」手段，比如以下两位优秀的同学：假装上课方案 1：录制记笔记视频假装上课方案 2：照片代替本人出镜不过，这些「小聪明」比起国外一位工程师的高阶翘班方式，还是显得稍微弱了一些。克隆一个自己的 AI，替我开会视频会议并不是适合所有人，Twitter 上有人吐槽现在是活在 Zoom 的世界。一位公司 CEO 在推特吐槽，现在每天都活在 Zoom 的世界里微软 Teams 仅一周就新增 1200 万用户，从 3200 万增长到 4400 万（3 月11 日至 3 月 18 日），单日会议时长突破了 27 亿分钟。 Z...

2020-04-19

652

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。