Apache Parquet MR 1.12.0 发布,列存储格式
Apache Parquet MR 1.12.0 已经发布。 Parquet 是支持嵌套数据的通用列文件格式,使用节省空间的编码和用于处理框架(如Hadoop)的压缩和可拆分结构。
主要更新内容
- parquet-format-structures 加密
- parquet-mr 代码更改以支持加密
- 添加空命令
- [C++] 修复在 32 位结构上产生的损坏文件
- 修复 Maven Protobuf 插件无法正常工作的问题
- 修复升级 Scrooge 版本时出现编译错误的问题
- 修复 API 后向兼容性问题导致主分支构建失败的问题
- 修复在 ParquetInputSplit 中找不到 FilleInputSplit 的问题
- 修复 ParquetMetadataConveter 在 Iceberg 单元测试中抛出 NPE 的问题
- 添加加密密钥管理工具
- 添加 BYTE_STREAM_SPLIT 编码
- 添加 parquet 加密的属性驱动接口
详情请查看更新公告。