Apache Cloudberry 孵化报告(202508-202510)
Apache Cloudberry™ (Incubating) 是 Apache 软件基金会孵化项目,由 Greenplum 和 PostgreSQL 衍生而来,作为领先的开源 MPP 数据库,可用于建设企业级数据仓库,并适用于大规模分析和 AI/ML 工作负载。
GitHub: https://github.com/apache/cloudberry
本篇 Cloudberry 孵化报告汇总了 Apache Cloudberry 在 2025 年 8 月至 10 月的关键进展。
本文改编自 2025 年 11 月的英文版《Apache Cloudberry 孵化报告》(https://cwiki.apache.org/confluence/display/INCUBATOR/November2025#cloudberry),译文较原文有所删改以适合博文展示。
关于 Apache Cloudberry
Cloudberry 是一款先进且成熟的开源大规模并行处理(Massively Parallel Processing, MPP)数据库,源自 Pivotal Greenplum Database®️ 的开源版本,但基于更现代的 PostgreSQL 内核构建。Cloudberry 适合用于数据仓库、大规模分析及 AI/ML 工作负载。
Cloudberry 自 2024 年 10 月 11 日 起进入 Apache 孵化器。
在毕业前需要解决的关键问题
-
持续壮大贡献者与社区规模,确保项目长期可持续发展;
-
按照 ASF 流程发布更多 Apache 正式版本。
自上次报告以来,社区发展情况如何?
-
邮件列表活动:自上次报告以来,开发者邮件列表(Dev)新增 210 封邮件,讨论内容涵盖技术开发、社区运营及 Apache 相关话题。
-
GitHub Discussions:新增 14 个讨论主题。
-
新增 Committer:
-
2025 年 9 月 25 日 — Leonid Borchuk(leborchuk)
-
-
社区活动亮点:
-
Apache Cloudberry Meetup(北京)
8 月 16 日在北京举办了线下 Meetup,吸引了 30 多位参与者,主题聚焦于 Apache Cloudberry 2.0.0 版本新特性及“Apache 之道”社区文化布道。活动回顾,参见《活动回顾|Apache Cloudberry™ (Incubating) Meetup·2025 北京站》。
-
PGConf.SPb 2025(圣彼得堡)
我们社区新当选的 Committer Leonid Borchuk 在本次活动上发表演讲《PAX — column store for Apache Cloudberry/Postgres 14》,介绍 Cloudberry 的行列混存引擎实现。详情参见:https://pgconf.ru/talk/2484244。
-
自上次报告以来,项目发展情况如何?
-
2025 年 8 月 25 日,正式发布自加入孵化器以来的首个版本——Apache Cloudberry (Incubating) 2.0.0,详情参见《官宣:Apache Cloudberry (Incubating) 2.0.0 发布》。
-
PostgreSQL 内核升级:14 → 16 内核升级工作持续进行中,可查看进展报告:https://s.apache.org/kp3lj。
-
开发活跃:主分支自上次报告以来新增 113 次提交,主要集中在 CI、性能优化、Bug 修复和新功能。
-
仓库调整与合并:
-
apache/cloudberry-devops-release 仓库已归档,其内容迁移至主仓库的 devops/ 目录
-
备份工具项目:
-
cloudberry-gpbackup 项目更名为 cloudberry-backup,以体现独立性与品牌一致性
-
cloudberry-backup代码已经与 Greenplum 归档版本完成同步
-
S3 插件已整合进 cloudberry-backup 的 plugins/s3plugin目录,安装时将随 cloudberry-backup 一同部署
-
-
-
-
cloudberry-go-libs 已完成与 Greenplum 归档版本同步
-
cloudberry-pxf 正在持续同步 Greenplum 最新提交
-
-
2.1.0 版本规划讨论启动讨论,可参见详情:https://s.apache.org/rx7s8
-
Apache Cloudberry 加入 Apache 孵化器一周年纪念与路线图回顾,参见《长文 | Apache Cloudberry 孵化一周年纪念》
-
生态合作进展
-
MADlib 集成
社区开发者正与 Apache MADlib 团队合作,实现在 Apache MADlib 上游原生支持 Cloudberry,PR 正在审阅并等待合并中:https://github.com/apache/madlib/pull/627
-
PostGIS 升级
PostGIS for Cloudberry 扩展已从 2.5 升级至 3.3.2,详情参见《周边组件 | PostGIS for Cloudberry 重磅升级》
-
最后一位 Committer 或 PPMC 成员的选举时间?
-
最新 Committer:2025 年 9 月 25 日 — Leonid Borchuk(leborchuk)
过去几个月,Apache Cloudberry 在社区建设、版本发布、核心功能和生态合作方面都取得了稳步进展。我们感谢所有贡献者的投入,并期待在下一阶段继续推动项目迈向 Apache 毕业之路 🎓。
推荐阅读
加入 Apache Cloudberry 社区
Apache Cloudberry 欢迎各位兴趣爱好者、开发者、用户加入:
-
访问网站:https://cloudberry.apache.org
-
关注 GitHub:https://github.com/apache/cloudberry
-
加入 Slack 空间:https://apache-cloudberry.slack.com
-
订阅 Dev 邮件列表:查看订阅方式及过往邮件归档 - https://cloudberry.apache.org/community/mailing-lists
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
KaiwuDB 焕新升级 —— V3.0 重磅发布!
在物联网技术日新月异的今天,数据指数级增长、数据类型愈发多样,场景日益复杂且变化迅速。一款真正好用的数据库必须具备强大的适应能力和不断进化的能力,从架构设计到性能优化,全方位提升自身能力,以适应物联网时代的数据管理需求。 今天,KaiwuDB V3.0 全新发布,将高性能时序数据处理、多模融合、分布式、安全特性、AI 等诸多能力集于一体,为企业提供高性能、高可靠、低成本且易运维的一站式数据管理解决方案,帮助企业有效应对物联网时代海量、实时、多模数据的管理挑战,实现降本增效和数据驱动业务创新的双重目标。 KaiwuDB V3.0 产品特性全景图 划重点 | KaiwuDB 3.0 七大新特性 01 多模架构增强 KaiwuDB 多模架构通过单一数据库系统统一管理时序数据和关系数据 ,可简化技术架构,降低开发和运维复杂度及成本。V3.0 支持高效跨模连接算子 与时序算子并行处理,相较于 V2.2 跨模查询性能提升 5-10 倍,打破了不同数据模型间的壁垒,为物联网中多源异构数据的融合分析提供了可能。 多模架构,一库多用 02 时序性能增强 KaiwuDB V3.0 通过追加写的方式,充分发...
-
下一篇
如何提升 LLMs 处理表格的准确率?一项针对 11 种格式的基准测试
编者按: 在构建基于大语言模型的 RAG 系统时,您是否曾思考过:究竟哪种表格数据格式能让 LLM 最准确高效地理解和提取信息? 我们今天为大家带来的文章,作者通过一项对照实验指出:表格格式对 LLM 的理解能力有显著影响,其中 Markdown-KV 格式在准确率上表现最佳,但也伴随着更高的 token 消耗。 文章详细介绍了作者针对 GPT-4.1-nano 模型进行的对照实验,测试了包括 CSV、JSON、Markdown Table、YAML 等在内的 11 种常见表格格式,使用 1000 条员工记录和对应问题,系统性地评估了各种格式在准确率和 token 消耗两个维度的表现。研究发现,虽然 Markdown-KV 格式准确率最高(60.7%),但也消耗了更多 token,而常见的 CSV 和 JSONL 格式表现不佳。 作者 | Improving Agents 编译 | 岳扬 在讨论基于 AI 的系统的可靠性时,有一个简单却常被忽视的问题:究竟用什么格式向大语言模型传递表格数据最合适? 应该用 Markdown table 还是 CSV? 选 JSON 抑或是 YAML? ...
相关文章
文章评论
共有0条评论来说两句吧...

微信收款码
支付宝收款码