OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致
12 月 12 日,OpenAI更新服务状态页面,在其中补充了对前一天 ChatGPT、Sora 及 API 服务宕机四个多小时事故的回顾。 OpenAI 表示,此次事件并非安全漏洞或新产品发布导致,而是源于一项内部系统升级。 OpenAI 工程师在 11 日下午部署了一项新的遥测服务,但由于配置失误,导致每个节点同时执行大量 Kubernetes API 操作,最终因服务器不堪重负、控制平面瘫痪。这进而引发 DNS 解析故障,导致服务间无法互相通信。 在此过程中,尽管 OpenAI 的监控系统在问题初期发出警报,但 DNS 缓存机制延迟了问题的暴露,使得故障在更大范围内蔓延。由于 Kubernetes 控制平面陷入死锁,工程师们经历了缩小集群规模、限制对 API 的访问、以及扩容服务器等多个步骤,才最终恢复了部分控制并移除了故障服务。 OpenAI 承认,此次事件暴露了测试和部署流程上的不足,例如只测试了小型预发布环境,没有评估对大型集群的潜在影响。相应地,OpenAI 承诺将采取一系列改进措施,包括实施更完善的阶段性发布流程、建立紧急 Kubernetes 控制平面访问机制、将 K...