性能提升30%！袋鼠云数栈基于 Apache Hudi 的性能优化实战解析

2023-06-21 904

Apache Hudi 是一款开源的数据湖解决方案，它能够帮助企业更好地管理和分析海量数据，支持高效的数据更新和查询。并提供多种数据压缩和存储格式以及索引功能，从而为企业数据仓库实践提供更加灵活和高效的数据处理方式。

在金融领域，企业可以使用 Hudi 来处理大量需要实时查询和更新的金融交易数据。在电商业务中，企业可以使用 Hudi 来跟踪订单数据，以及对订单进行实时更新和查询。在物流和供应链管理中，Hudi 可以帮助企业实时处理和更新大量的物流数据，保证数据的一致性和可靠性。

作为一站式大数据基础软件的袋鼠云数栈，基于 Apache Hudi 为客户提供了存量数据迁移、数据入湖、文件治理等完整支持能力。在这个过程中，积累了一些 Hudi 性能优化的经验，希望通过本文与大家分享交流。

Hudi 原理简析

Apache Hudi 是一个开源的数据湖解决方案，它是基于 Hadoop 和 Spark 的技术栈构建而成，并且拓展到了 Flink、 Trino 等多种计算引擎。Apache Hudi 的主要目的是提供一个高效、可扩展且可靠的数据湖解决方案，用于管理和处理大规模的数据集。

Hudi 的核心实现是通过将数据集合划分为多个数据文件，并为每个数据文件维护一个数据版本和索引信息，来支持增量数据更新和查询操作。如下图所示，当用户需要对数据进行更新时，Hudi 会将更新的数据写入一个新的数据文件中，并通过写时复制（copy-on-write）操作，将原始数据文件中的数据记录复制到新的数据文件中，并在新的数据文件中更新对应的数据记录。

同时，Hudi 会更新数据版本和索引信息，以便用户可以根据数据版本和唯一标识符来访问最新的数据记录。当用户需要查询数据时，Hudi 会使用索引信息来定位数据记录，并返回最新的数据记录。

在 Hudi 的 merge on read 模式中，更新操作是通过在查询时将原始数据和更新数据进行合并来实现的。具体来说，当有新的数据要被写入时，Hudi 会将新数据追加写入到一个新的日志文件中，并在元数据文件中记录新文件的信息。当查询数据时，Hudi 会将所有数据文件进行合并，生成一个视图，然后对视图进行查询。

由于 Hudi 只需要在查询时将需要更新的数据进行合并，而不需要在写入时进行合并，因此可以避免写入时的性能开销，从而实现快速的更新操作。

Apache Hudi 在写入数据时创建一个新版本，而读取数据时通过将所有版本的数据进行合并来生成一个视图。在视图中，每个数据记录只出现一次，并且是最新的版本，这样可以保证读操作只会涉及到视图中的数据，而不会对原始数据进行修改，从而实现了读写分离。

通过多版本实现并发控制，Hudi 可以在保证数据一致性的前提下，提高读操作的性能，同时也保证了数据的可靠性和可扩展性。

Hudi 优化实践

下面介绍基于袋鼠云数栈的实践经验，所做的 Hudi 性能优化。

支持多索引

Hudi 将数据集合划分为多个数据文件，并为每个数据文件维护一个数据版本和索引信息，来支持增量数据更新和查询操作。通过构建索引就可以利用生成的元数据快速定位查询所需数据的位置，如下图所示。这样可以减少甚至避免从文件系统中扫描或者读取不必要的数据，减少 IO 的开销，大大提升查询效率。Hudi 已经支持几种不同的索引技术，并且还在不断地改进和添加更多的索引实现。

袋鼠云数栈支持用户在创建 Hudi 表时就设置想要使用的索引类型，包括 SIMPLE、BLOOM FILTER、BUCKET 等类型。在写入过程中，Hudi 会将索引信息写入到 parquet 文件或者外部存储中，在读取时应用程序根据这些信息进行比较判断，跳过不必要的数据文件。

Hudi 在0.11.0版本引入了 MetadataTable 这种多模式索引，利用 MetadataTable 汇总元数据信息，应用程序可以避免文件系统调用文件 Listing 操作（这在对象存储中是非常耗时的），还可以避免直接读取 parquet 文件中的 footer 信息，能够大幅提升查询性能。

袋鼠云数栈支持用户在建表时就开启多模式索引，在写入数据的同时将文件的索引信息也写入 MetadataTable。数栈还支持以异步的方式构建 MetadataTable，保证写入仍然处于低延迟的状态，再由后台的应用程序离线生成 MetadataTable 以提升读取性能。

由于 MetadataTable 依赖 base 文件记录的 column stats/bloomfilter 等信息，因此 merge on read 模式下没有办法将 log 文件的信息保存到 MetadataTable 中，开源框架上没有利用它实现进行文件过滤。

但考虑到 base 文件和 log 文件共用相同的 fileId，袋鼠云技术团队在数栈内部进行了改造：通过 MetadataTable 获取到 base 文件之后，再根据 fileId 进行 log 文件过滤，避免不必要读取。经过验证，这种改动能够使得 merge on read 模式具备和 copy on write 模式相同的过滤效果。

优化文件布局

在大数据存储中，文件布局优化是一种重要的性能优化技术。其主要目的是在数据写入时将数据按照一定的规则布局到存储介质中，以提高数据读取和处理的效率。文件布局优化可以采用多种方式，如时间戳排序、分区排序和合并文件等方式。

Hudi 提供了一种名为 Clustering 的文件布局优化方法，可以借此将小文件合并成较大的文件以减少查询引擎需要扫描的文件总数，或者利用空间填充曲线之类的概念来适应数据湖布局并减少查询读取的数据量。利用 Clustering，可以将具有相同查询特征的数据放到相邻的几个文件内，在查询时再根据索引信息进行过滤，能够有效减少需要读取的文件数量，降低计算成本。

袋鼠云数栈提供了可视化页面以方便用户对文件布局进行调整，用户可以根据需要自由设置排序策略、排序字段、过滤条件等，如下图所示，应用程序会周期性地在后台根据配置对文件进行优化。因为 Hudi 采用多版本组织文件，用户不需要担心优化任务会影响正在运行的读取任务，在优化完成后新的读取任务即可享受到新的布局带来的效率提升。

探索新特性

在落地 Hudi 的过程中，袋鼠云数栈也在积极跟踪实践社区的新功能新特性。

在 Hudi 0.13.0 中，Hudi 实现了“优化记录负载处理”的特性。通过设置 hoodie.datasource.write.record.merger.impls=org.apache.hudi.HoodieSparkRecordMerger 和 hoodie.logfile.data.block.format=parquet 两个参数避免了额外的复制和反序列化，在写入操作的整个生命周期内以统一的方式处理记录。

袋鼠云数栈测试和引入了这项特性，经过验证，更新性能相比上一版本有了约20%的提升，符合社区的描述。另外，数栈还参考了 Hudi 0.13.0 引入的 disruptor 无锁消息队列写入数据的新特性，通过设置 hoodie.write.executor.type = DISRUPTOR 和 hoodie.write.executor.disruptor.wait.strategy = BUSY_SPIN_WAIT 参数，结合前述的优化配置，更新性能整体提升了30%以上。

总结

Apache Hudi 的优势在于支持增量数据处理，具有良好的数据一致性和可靠性，同时提供多种性能优化技术，能够提高数据处理和查询的效率，具有良好的性能和可扩展性。

袋鼠云数栈团队在落地 Hudi 的过程中，验证了 Hudi 的多种索引，应用了文件组织优化功能，总结了常用的调优参数，为推动企业数据湖建设，提供可靠、高效、可扩展的数据湖解决方案积累了不少经验，能够帮助企业更好地管理和分析数据，提高业务决策的精度和效率。

《数栈产品白皮书》：https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址：https://www.dtstack.com/resources/1001?src=szsm 想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=szkyzg

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」，交流最新开源技术信息，qun号码：30537511，项目地址：https://github.com/DTStack

微信关注我们

原文链接：https://my.oschina.net/u/3869098/blog/10084152

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

蚂蚁集团证实正研发语言和多模态大模型，命名“贞仪”

根据《科创板日报》的独家消息，蚂蚁集团技术研发团队正在自研语言和多模态大模型——内部命名为“贞仪”，该项目获得了蚂蚁集团管理层高度重视，已启动数月。多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。此前，OpenAI 联合创始人伊尔亚・苏茨克维 (Ilya Sutskever) 曾表示，“人工智能的长期目标是构建多模态神经网络，即 AI 能够学习不同模态之间的概念，从而更好地理解世界。” 值得一提的是，6 月 19 日，由清华大学计算机系教授、人工智能研究院副院长朱军带领的新团队完成了近亿级天使轮融资，由蚂蚁集团领投。这是自去年 11 月 ChatGPT 发布至今，蚂蚁集团投资的第一个 AIGC 项目。目前业内比较知名的多模态大模型有 VisualGLM-6B 和ImageBind。VisualGLM-6B 由清华大学知识工程和数据挖掘小组发布，是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参...

2023-06-21

932

1 背景体验是得物的业务关键词之一，对于前端开发而言，提高用户体验更是重要工作内容之一。得物前端平台目前有巡检系统、监控平台等多种手段保障线上页面稳定运行，但是仍有一部分问题处于“监控死角”，而且巡检、监控都属于后置告警手段，为了确保页面上线前就能得到一定的用户体验保障，结合公司的战略目标，我们决定开发一个H5页面检测服务，用来前置检测即将上线的页面，提前暴露该页面可能存在的问题反馈给对应的开发/运营，我们将这个服务称之为：“体验卡口”。本文从这次“体验卡口”服务的开发实践出发，同时介绍得物巡检系统的架构和设计，希望能给参与稳定性建设的开发小伙伴提供一定的学习和参考价值。 2 用户体验量化标准当我们试图量化影响用户体验的问题时，需要思考以下两个主要问题：什么影响了用户体验？我们已经通过丰富的数据支撑和实践经验，对影响用户体验的因素有了深入了解。从过去的线上问题反馈收集和开发经验中，我们将体验问题大致分为两个等级： P0级：这些问题严重影响页面加载速度或涉及到安全风险，例如页面包含超大的图片/媒体资源、页面中含有个人隐私信息； P1级：这些问题可能对用户体验造成潜在影响，例如...

2023-06-21

960

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。