对《GitHub服务中断24小时11分钟事故分析报告》的分析
对《GitHub服务中断24小时11分钟事故分析报告》的分析
声明
本文是根据公众号“高效开发运维”翻译整理的GitHub服务中断分析报告的信息进行分析。可能存在某些观点有误,如果有欢迎指出。
原文地址:GitHub服务中断24小时11分钟事故分析报告
官方报告英文地址:October 21 post-incident analysis
背景
UTC 时间 10 月 21 日 22:52,为了更换发生故障的 100G 光纤设备,美国东海岸网络中心与美国东海岸数据中心之间的连接被断开。连接在 43 秒后恢复,但这次短暂的中断引发了一系列事故,导致 24 小时 11 分钟的服务降级。
简单分析
根据报告里信息描述,大致意思是要做一个计划中的变更,替换东海岸网络中心和数据中心之间的光纤,网络中断了43秒。在43秒内一个全局的容灾高可用机制(Orches