如何做一次高效的事故复盘?
事故复盘无疑是系统服务可用性管理或DevOps建设中非常重要的一个环节,但是如何做到高效,却很难。我这里对高效复盘的基本原则做一些阐述。 背景: 我们先从最近的一则新闻说起,Google在2020年12月14日凌晨发生一起全球Down机的事故,47分钟内Google账号服务不可用,导致依赖该账号服务的各种Google产品服务包括Google Cloud Console以及Gmail/Docs和Youtube等都不能正常的使用。看到有同学搞笑说,SRE的圣经《SRE-Google运维解密》现在可以扔了。哈哈,当然这只是一句玩笑话。 其实现在的计算机系统是一个极其复杂,而且依赖很多的分布式系统,出现事故是在所难免的,关键是如何对待事故。是把它视为人为错误(Human Error)导致,找到那个事故负责人,然后对他进行处罚,希望达到不再犯错的目的,还是接受事故是不可避免的事实,进而从各种系统架构设计上/流程设计和执行上进行容错性处理,把每次事故当作一次学习和改进的机会。这是一个传统IT公司和高绩效公司的关键区别之一。 传统事故复盘:Blame Game 或者甩锅 我们先来看看传统事故复盘...
