GitHub 首席技术官 Kyle Daigle 日前发布了一篇关于平台可用性的深度更新,坦承自 2025 年 12 月以来,AI 驱动的开发浪潮使平台流量出现了前所未有的激增,给基础设施带来了巨大压力,并导致近期发生了两起影响范围较广的故障事件。
Daigle 在文中披露了一组令人瞩目的增长数据:GitHub 平台目前每月新增超过 2000 万个仓库,每周处理的 Pull Request 数量高达 9000 万次,每周产生的代码提交更是达到了惊人的 14 亿次。与 2023 年相比,平台负载已从原先的 10 倍增长扩大到了 30 倍。这种爆炸式增长的背后,是 AI 编程助手(如 GitHub Copilot)的普及大幅降低了开发门槛,使得更多开发者涌入平台进行代码协作。

然而,流量的激增也直接暴露了基础设施的瓶颈。Daigle 详细介绍了两起近期发生的故障。第一起发生在 2025 年 4 月 23 日,一个代码合并队列(Merge Queue)的漏洞导致系统对队列中的 Pull Request 进行了重复处理,进而引发了级联故障,造成大量用户的合并操作失败。第二起则发生在 4 月 27 日,GitHub 的 Elasticsearch 集群在峰值负载下不堪重负,导致代码搜索、问题追踪等核心功能出现性能下降甚至不可用的情况。
推荐阅读:因频繁出现服务中断,开源终端模拟器 Ghostty 将离开 GitHub

面对这些挑战,GitHub 团队正在从短期修复和长期架构重构两个维度同时发力。短期措施包括将 Webhooks 服务从 MySQL 数据库中剥离出来,以减轻数据库压力;重新设计会话缓存机制,提升用户认证系统的稳定性。在长期规划方面,GitHub 制定了更为激进的路线图:
- 首先是将核心服务进行隔离,避免单点故障扩散到整个平台
- 其次是逐步将部分关键服务从 Ruby 迁移至 Go 语言,以获得更好的性能和并发处理能力
- 最后 GitHub 还计划推进多云架构部署,增强基础设施的弹性和容灾能力。
值得注意的是,这并非 GitHub 首次因 AI 流量激增而面临可用性危机。早在 2025 年初,GitHub 就曾因 Copilot 的广泛使用导致 API 速率限制频繁触发,引发开发者社区的不满。此次 CTO 亲自出面发布可用性更新,既是对用户的坦诚交代,也表明了 GitHub 将基础设施稳定性置于战略优先级的决心。
随着 AI 编程工具的持续普及,代码托管平台的负载曲线预计将继续陡峭上升。GitHub 此次的基础设施升级经验,无疑将为整个行业提供重要的参考样本。
参考来源:An update on GitHub availability