云原生计算基金会(CNCF)宣布 Dragonfly 正式毕业。Dragonfly 是一个开源的镜像和文件分发系统,旨在解决以 Kubernetes 为核心的云原生大规模镜像和文件分发问题。
CNCF 首席技术官 Chris Aniszczyk 表示:“Dragonfly 的毕业反映了该项目的成熟度、广泛的行业采用以及在扩展云原生基础设施方面的关键作用。尤其令人兴奋的是看到该项目在镜像加速和 AI 工作负载数据分发方面的价值。我们很自豪能够支持一个不断推动可扩展、高效和开放的社区。”
![]()
技术能力
Dragonfly 提供高效、稳定、安全的数据分发和加速能力,基于点对点(P2P)技术。它旨在成为云原生架构中的最佳实践和标准解决方案,以提高文件、容器镜像、OCI 制品、AI 模型权重、缓存、日志和依赖的大规模分发能力。
Dragonfly 运行在 Kubernetes 上,通过 Helm 安装,其官方 Chart 可在 Artifact Hub 上下载。在可观测性上依赖 Prometheus 和 OpenTelemetry 的能力,基于 gRPC 实现各组件间快速通信。通过预热功能增强 Harbor 分发镜像以及 OCI 制品的能力。在 GenAI 时代,随着模型服务变得越来越重要,Dragonfly 支持高效分发由 ModelPack 定义的 AI 模型制品。
Dragonfly 持续推进大规模容器镜像分发,在生产环境中每天支持千万级别的加速容器启动,节省高达 90% 的回源带宽,并将启动时间从分钟级缩短到秒级,在云原生场景中被大规模采用。
Dragonfly 还在推动 AI 模型权重分发以及 AI 工作负载的镜像布局优化。该技术显著减少了大规模 AI 工作负载的数据加载时间,能够在分钟级别将百 TB 级别的 AI 模型权重分发到上百节点。随着 AI 技术持续发展,Dragonfly 在加速大规模 AI 工作负载交付方面发挥着至关重要的作用。
毕业里程碑
Dragonfly 于 2017 年 11 月由阿里巴巴集团开源。随后于 2018 年 10 月作为 Sandbox 项目加入 CNCF。在此阶段,Dragonfly 1.0 于 2019 年 11 月达到生产就绪状态,Dragonfly 子项目 Nydus 于 2020 年 1 月开源。Dragonfly 随后于 2020 年 4 月进入 Incubation 阶段,并且 Dragonfly 2.0 于 2021 年发布。
此后,社区已显著成熟,吸引了来自蚂蚁集团、阿里云、字节跳动、快手、英特尔、Datadog、智谱 AI 等组织的数百名贡献者。
自加入 CNCF 以来,贡献者增长了 500%,从 5 家公司的 45 人增长到超过 130 家公司的 271 人。Commit 增长超过 3,000%,从约 800 次 Commit 增长到 26,000 次,总参与者人数达到 1,890 人。
未来规划
未来 Dragonfly 会基于 RDMA 加速 AI 模型权重分发,提高吞吐量并降低端到端延迟。同时优化镜像布局以减少大规模 AI 工作负载的数据加载时间。增加基于负载感知的两阶段调度,使用调度器和客户端共同协作提升整体分发效率。为提供更加稳定可靠的服务,Dragonfly 会支持自动更新和故障恢复,并在突发流量的情况下保证各组件稳定运行,并控制回源流量。
毕业流程
为了正式从孵化阶段毕业,Dragonfly 团队优化了选举策略、明确了维护者生命周期、规范了贡献流程、定义了社区阶梯,并为子项目添加了社区指南。毕业过程得到了 CNCF 技术监督委员会(TOC)赞助者 Karena Angell 和 Kevin Wang 的支持,他们与 Dragonfly 项目维护者一起进行了全面的技术尽职调查。
此外,还对项目进行了第三方安全审计。Dragonfly 团队完成了自我安全评估以及与 CNCF TAG Security 的联合安全评估,并与 Dragonfly 安全团队合作制定了威胁模型,改进了项目的安全策略。