字节跳动基于 Apache Hudi 的多流拼接实践方案-低调大师

字节跳动基于 Apache Hudi 的多流拼接实践方案

2022-03-30 629

字节跳动数据湖团队在实时数仓构建宽表的业务场景中，探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。

字节跳动数据湖团队在实时数仓构建宽表的业务场景中，探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。

该方案在存储层提供对多流数据的关联能力，旨在解决实时场景下多流 JOIN 遇到的一系列问题。接下来，本文会详细介绍多流拼接方案的背景以及实践经验。

业务面临的挑战

字节跳动存在较多业务场景需要基于具有相同主键的多个数据源实时构建一个大宽表，数据源一般包括 Kafka 中的指标数据，以及 KV 数据库中的维度数据。

业务侧通常会基于实时计算引擎在流上做多个数据源的 JOIN 产出这个宽表，但这种解决方案在实践中面临较多挑战，主要可分为以下两种情况：

维表 JOIN

场景挑战：指标数据与维度数据进行关联，其中维度数据量比较大，指标数据 QPS 比较高，导致数据可能会产出延迟。
当前方案：将部分维度数据缓存起起来，缓解高 QPS 下访问维度数据存储引擎产生的任务背压问题。
存在问题：由于业务方的维度数据和指标数据时间差比较大，所以指标数据流无法设置合理的 TTL；而且存在 Cache 中维度数据没有及时更新，导致下游数据不准确的问题。

多流 JOIN

场景挑战：多个指标数据进行关联，不同指标数据可能会出现时间差比较大的异常情况。
当前方案：使用基于窗口的 JOIN，并且维持一个比较大的状态。
存在问题：维持大的状态不仅会给内存带来的一定的压力，同时 Checkpoint 和 Restore 的时间会变得更长，可能会导致任务背压.

分析与对策

总结上述场景遇到的挑战，主要可归结为以下两点：

由于多流之间时间差比较大，需要维持大状态，同时 TTL 不好设置。
由于对维度数据做了 Cache，维度数据数据更新不及时，导致下游数据不准确。

针对这些问题，并结合业务场景对数据延迟有一定容忍，但对数据准确性要求比较高的背景，我们在不断的实践中探索出了基于 Hudi Payload 机制的多流拼接方案：

多流数据完全在存储层进行拼接，与计算引擎无关，因此不需要保留状态及其 TTL 的设置。
维度数据和指标数据作为不同的流独立更新，更新过程中不需要做多流数据合并，下游读取时再 Merge 多流数据，因此不需要缓存维度数据，同时可以在执行 Compact 时进行 Merge，加速下游查询。

此外，多流拼接方案还支持：

内置通用模板，支持数据去重等通用接口，同时可满足用户定制化数据处理需求。
支持离线场景和流批混合场景。

方案介绍

基本概念

首先简单介绍下本方案依赖 Hudi 的一些核心概念：

Hudi MetaStore

这是一个中心化的数据湖元数据管理系统。它基于 Timeline 乐观锁实现并发写控制，可以支持列级别的冲突检查。这在 Hudi 多流拼接方案中能够实现并发写入至关重要，更多细节可参考字节跳动数据湖团队向社区贡献的 RFC-36。

MergeOnRead 表读写逻辑

MergeOnRead 表里面的文件包含两种， LogFile (行存) 和 BaseFile (列存)，适用于实时高频更新场景，更新数据会直接写入 LogFile 中，读时再进行合并。为了减少读放大的问题，会定期合并 LogFile 到 BaseFile 中，此过程叫 Compact。

原理概述

针对上述业务场景，我们设计了一种完全基于存储层的多流拼接方案，支持多个数据流并发写入，读时按照主键合并多流数据，此外还支持异步 Compact 来加速下游读取数据。

图 1 Hudi 多流拼接概念图（本文所有图中示例数据均与图 1 一致）

现以一个简单的示例流程对方案原理进行阐述，图 1 为多流拼接示意图。图中的宽表包含 BCDE 五列，是由两个实时流和一个离线流拼接而成，其中 A 是主键列，实时流 1 负责写入 ABC 三列，实时流 2 负责写入 AD 两列，离线流负责写入 AE 两列，此处仅对两个实时流的拼接过程进行介绍。

图 1 中显示两个流写入数据以 LogFile 形式存储，Merge 过程是合并 LogFile 和 BaseFile 中的数据。合并过程中，LogFile 中每一列的值被更新到 BaseFile 中对应的列上，BaseFile 中未被更新的列保持原来的值不变，如图 1 中 BCD 三列被更新成新值，E 列保持旧值不变。

写入过程

多流数据拼接方案支持多流并发写入，相互独立。对于单个流的写入，逻辑与 Hudi 原有写入流程一致，即数据以 Upsert 的方式写入 Hudi 表，以 LogFile 的形式存储，并在数据写入的过程中对数据去重。在多流写入的场景，核心点在于如何处理并发问题。

图 2 显示了数据并发写入的流程。流 1 和流 2 是两个并发的任务，检查这两个任务写入的列除了主键以外是不是存在其它交集。例如：

流 1 的 Schema 包含三列 (A，B，C)，流 2 的 Schema 包含两列 (A，D)。在并发写入的时候，先在 Hudi MetaStore 对两个任务发起的 DeltaCommit 做列冲突检查，即除了主键列外的其它列是否存在交集，如图中的 (B，C) 和 (D)：

如果有交集，则后发起的 DeltaCommit 失败。
如果没有交集，则两个任务继续后续的写入。

图 2 数据写入过程示意图

读取过程

接下来，介绍多流拼接场景下 Snapshot Query 的核心过程，即先对 LogFile 进行去重合并，然后再合并 BaseFile 和去重后的 LogFile 中的数据。图 3 显示了整个数据合并的过程，具体可以拆分成以下两个过程：

Merge LogFile Hudi 现有逻辑是将 LogFile 中的数据读出来存放在 Map 中，对于 LogFile 中每条 Record，如果 Key 不存在 Map 中，则直接放入 Map，如果 Key 已经存在于 Map 中，则需要更新操作。

在多流拼接中，因为 LogFile 中存在不同数据流写入的数据，即每条数据的列可能不相同，所以在更新的时候需要判断相同 Key 的两个 Record 是否来自同一个流，是则做更新，不是则做拼接。

如图 3 所示，读到 LogFile2 中的主键是 key1 的 Record 时，key1 对应的 Record 在 Map 中已经存在，但这两个 Record 来自不同流，则需要拼接形成一条新的 Record (key1，b0_new，c0_new，d0_new) 放入 Map 中。

Merge BaseFile and LogFile

Hudi 现有默认逻辑是对于每一条存在于 BaseFile 中的 Record，查看 Map 中是否存在 key 相同的 Record，如果存在，则用 Map 中的 Record 覆盖 BaseFile 中的 Record。在多流拼接中，Map 中的 Record 不会完整覆盖 BaseFile 中对应的 Record，可能只会更新部分列的值，即 Map 中的 Record 对应的列。

如图 3 所示，以最简单的覆盖逻辑为例，当读到 BaseFile 中的主键是 key1 的 Record 时，发现 key1 在 Map 中已经存在并且对应的 Record 有 BCD 三列的值，则更新 BaseFile 中的 BCD 列，得到新的 Record(key1，b0_new，c0_new，d0_new，e0)，注意 E 列没有被更新，所以保持原来的值 e0。对于新增的 Key 如 Key3 对应的 Record，则需要将 BCE 三列补上默认值形成一条完整的 Record。

图3 SnapShot Query 中数据合并过程

异步 Compaction

为了提升读取性能，某些数据源的写入任务会同步执行 Compaction，但实践过程中发现同步执行 Compaction 会阻塞写入任务，而且 Compaction 任务需要资源比较多，可能会抢占流式导入任务的资源。

针对这类场景，通过独立的 Compaction Service 来隔离 Compaction 任务和流式数据导入任务。与 Hudi 本身自带的异步 Compaction 不同的是，用户无需指定要执行的 Compaction Instant，且有一个独立的 Compaction Service 负责所有的表的 Compaction 操作。关于 Compaction Service 的细节就不在本文展开，详情可参考 RFC-43。

具体过程是流式导入任务同步生成 Schedule Compaction Plan，并将 Plan 存入 Hudi MetaStore。有一个独立于流式导入任务的 Async Compactor，它从 Hudi MetaStore 循环拉取 Compaction Plan 并执行。

场景实践与未来规划

最终，基于 Hudi 多流拼接的方案，在实时数仓的 DWS 层落地，单表支持了 3+ 数据流的并发导入，覆盖了数百 TB 的数据。

此外，在使用 Spark 对宽表数据进行查询时，在单次扫描量几十 TB 的查询中，性能相比于直接使用多表关联性能提升在 200% 以上，在一些更加复杂的查询下，也有 40-140% 的性能提升。

目前，基于 Hudi 多流拼接方案易用性不足，单个任务至少需要配置超过 10 个参数，为了进一步降低用户使用成本，后续会做部分列插入和更新的 SQL 的语法支持以及参数的收敛。

除此之外，为了进一步提升宽表数据查询性能，还计划在多流拼接场景下支持基于列存格式的 LogFile，提供列裁剪和过滤条件下推等功能。

数据湖团队正在招人，欢迎关注字节跳动数据平台同名公众号

下拉推荐在 Shopee Chatbot 中的探索和实践

本文首发于微信公众号“Shopee技术团队”。摘要在主流的搜索引擎、购物 App 和 Chatbot 等应用中，下拉推荐可以有效地帮助用户快速检索所需要的内容，已经成为一项必需且标配的功能。本文将介绍 Shopee Chatbot 团队在 Chatbot 中从 0 到 1 构建下拉推荐功能的过程，并分享模型迭代优化的经验。特别地，针对东南亚市场语种繁多的挑战，我们探索了多语言和多任务的预训练语言模型，并将其应用于下拉推荐中的向量召回，以优化召回效果。另一方面，为了使下拉推荐尽可能帮助用户，并解决用户的问题，我们针对用户点击与问题解决这两个目标进行了同时建模，在多目标优化方面也做了探索。 1. 业务背景 1.1 Shopee Chatbot 随着 Shopee 业务的扩张，消费者对客服咨询的需求不断攀升。Shopee Chatbot 团队致力于基于人工智能技术打造 Chatbot 与人工客服 Agent 的有机结合，通过 Chatbot 来解决用户日常的咨询诉求，给用户提供更好的体验，缓解和减轻人工客服的压力，也帮助公司节省大量人力资源成本。目前，我们已经在多个市场上线了 Chat...

2022-03-29

627

今天下午二狗子照常上班摸鱼的时候，突然看到了一则消息，消息说 GIF 的发明人因新冠去世了。作为一个自诩理性的互联网人，二狗子第一反应是看到了一个离谱谣言，可是查看了多方消息后，二狗子难过地发现这是真的。斯蒂芬·威尔海特就职于 CompuServe（全球第一家网络服务提供商），当时这家公司想要在网上展现彩色天气图等信息，但因受限于网络带宽而束手无策。斯蒂芬·威尔海特了解一些压缩技术，于是他参与了创造 GIF 格式的工作。在之后的1978 年，CompuServe 公司推出 GIF 格式，诞生了世界上第一张动图。 GIF 全称 Graphics Interchange Format，即图形交换格式，以8位色（即256种颜色）重现真彩色的图像。它有效地减少了图像文件在网络上传输的时间，是目前互联网广泛应用的网络传输图像格式之一。除去 GIF，目前互联网广泛使用的图像格式还有以下种类： JPEG png WebP GIF 前面我们也提到了一点关于 GIF 的介绍，作为它最大的，与 JPEG 和 PNG两种格式不同的特点，就是 GIF 是“能动”的。我们通常将 GIF 用于从图像文件创建动...

2022-03-30

785

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。