OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致
12 月 12 日,OpenAI更新服务状态页面,在其中补充了对前一天 ChatGPT、Sora 及 API 服务宕机四个多小时事故的回顾。
OpenAI 表示,此次事件并非安全漏洞或新产品发布导致,而是源于一项内部系统升级。
OpenAI 工程师在 11 日下午部署了一项新的遥测服务,但由于配置失误,导致每个节点同时执行大量 Kubernetes API 操作,最终因服务器不堪重负、控制平面瘫痪。这进而引发 DNS 解析故障,导致服务间无法互相通信。
在此过程中,尽管 OpenAI 的监控系统在问题初期发出警报,但 DNS 缓存机制延迟了问题的暴露,使得故障在更大范围内蔓延。由于 Kubernetes 控制平面陷入死锁,工程师们经历了缩小集群规模、限制对 API 的访问、以及扩容服务器等多个步骤,才最终恢复了部分控制并移除了故障服务。
OpenAI 承认,此次事件暴露了测试和部署流程上的不足,例如只测试了小型预发布环境,没有评估对大型集群的潜在影响。相应地,OpenAI 承诺将采取一系列改进措施,包括实施更完善的阶段性发布流程、建立紧急 Kubernetes 控制平面访问机制、将 Kubernetes 数据平面和控制平面解耦等。
影响
在太平洋时间 2024 年 12 月 11 日下午 3:16 至晚上 7:38 之间,所有 OpenAI 服务均出现了严重降级或完全不可用。
这起事故源于我们在所有集群中推出的新遥测服务配置,并非由安全漏洞或近期产品发布所致。
从下午 3:16 开始,各产品性能均出现大幅下降。
•ChatGPT: 在下午 5:45 左右开始大幅恢复,并于晚上 7:01 完全恢复。
•API: 在下午 5:36 左右开始大幅恢复,于晚上 7:38 所有模型全部恢复正常。
•Sora: 于晚上 7:01 完全恢复。
时间线
•2024 年 12 月 10 日: 新的遥测服务部署到预发布集群,经测试无异常。
•2024 年 12 月 11 日 下午 2:23: 引入该服务的代码合并到主分支,并触发部署流水线。
•下午 2:51 至 3:20: 变更逐步应用到所有集群。
•下午 3:13: 告警触发,通知到工程师。
•下午 3:16: 少量客户开始受到影响。
•下午 3:16: 根因被确认。
•下午 3:27: 工程师开始把流量从受影响的集群迁移。
•下午 3:40: 客户影响达到最高峰。
•下午 4:36: 首个集群恢复。
•晚上 7:38: 所有集群恢复。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
OpenAI “吹哨人” Suchir Balaji 离世,年仅 26 岁
近日,前 OpenAI 员工 Suchir Balaji 在旧金山公寓中被发现死亡。 旧金山首席法医办公室方面透露,已确认死者为 26 岁的旧金山人 Suchir Balaji,其死亡方式已确定为自杀。据当地警方称,初步调查中没有发现任何犯罪痕迹。 今年 10 月,Suchir Balaji 曾接受《纽约时报》采访,他表达了对 OpenAI 在版权法律方面的担忧,同时认为 OpenAI 的技术可能会对社会造成伤害,而其处理版权数据的方式可能对互联网产生负面影响。 Balaji 当时告诉《纽约时报》,在 OpenAI 工作了近四年后,自己意识到这项技术给社会带来的危害会大于好处,于是辞职了。 报道中还指出,OpenAI 正面临来自多家报纸和媒体出版商的版权诉讼,指控 OpenAI 违反了版权法。警方发现Balaji尸体的前一天,法院文件中,Balaji 在其中一起针对 OpenAI 的版权诉讼中被列为被告。 Balaji 在 10 月份所发的一条推文中表示: “我在 OpenAI 工作了近四年,最后一年半从事 ChatGPT 开发工作。我最初对版权和合理使用等方面知之甚少,但在看到针对从...
- 下一篇
周鸿祎:95% 以上的中国电脑安装了 360
今年7月,微软蓝屏事件被记录为史上最严重的IT系统崩溃。此次事件由杀毒软件更新触发,导致全球超过20个国家的逾千万Windows设备陷入瘫痪,影响了包括航空、银行、电信、媒体、健康医疗和零售在内的多个行业,给各大公司带来了巨大的损失。 周鸿祎对此提出了一个引人深思的问题:在全球普遍遭受重创的情况下,为什么中国却能幸免于难,未受任何影响? 他揭示了背后的原因: 95%以上的中国电脑安装了360安全卫士、360杀毒或360终端安全管理系统。 360独具的自动化蓝屏修复技术,当发现Windows出现蓝屏时,只需重启系统,360就能自动恢复Windows上一次的配置,且不会影响用户正常使用,所以我们国家这次才没有出现整体崩溃和系统蓝屏的事件。 周鸿祎强调,360经过20年的免费杀毒服务,已在全球范围内积累了超过10亿的用户,其软件在各种复杂环境下均经受住了考验。 无论是面对各种Windows系统、复杂的应用软件冲击,还是与各类黑客软件、流氓软件病毒的实际攻防中,360都能保持稳定运行。 来源:https://weibo.com/ttarticle/p/show?id=2309405111434...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境