Apache Hudi 1.1.0 正式发布,开源数据湖平台
Apache Hudi 1.1.0 是一个重大版本更新,为平台带来了显著的性能提升、新功能和重要变更。此版本重点增强了表格式支持、改进了索引功能、扩展了引擎支持,并改进了记录合并 API。 发布重点 可插拔表格格式框架- 多种表格格式的原生集成与统一的元数据管理 支持 Spark 4.0 和 Flink 2.0- 全面支持最新主要计算引擎版本 增强型索引- 分区记录索引、分区级桶索引、原生 HFile 写入器和列统计信息 V2 性能提升——Flink写入吞吐量提升2-3倍,元数据表读取速度提升4倍 表服务优化- Parquet 二进制复制和增量调度以实现压缩/聚簇 基于存储的锁提供程序- 无需外部依赖的多写入器并发控制 记录合并演进——弃用有效负载类,转而采用合并模式和合并 API 新功能 表格格式 可插拔表格式支持 Hudi 1.1.0 引入了全新的可插拔表格式框架,实现了系统内多种表格式的原生集成。该框架包含一个可插拔表格式的基础接口,旨在简化扩展并实现不同存储后端之间的无缝互操作性。元数据表 (MDT) 集成也得到了增强,以支持可插拔性,确保所有受支持的表格式的模块化和统一的元数...