哈啰出行高质量故障复盘法:“3+5+3”(附模板)
# 一分钟精华速览 # 故障复盘指的是及时把过去发生的错误,最大程度转化为未来可以规避的办法,其核心是不断减少失败因子繁衍的温床,将它们牢牢地掌控在不至于引发危机的范围之中。 作为国民基础设施的哈啰出行,在保障超 5.3 亿注册用户体验和系统稳定性过程中,是如何通过系统的、有策略的总结复盘来避免故障重复发生的? 作者介绍 哈啰技术风险负责人——孟闯 十年互联网行业研发经验,2015 年加入哈啰出行,参与哈啰业务系统从 0 到 1 的建设,作为核心 owner 主导多个重点稳定性保障项目,在高可用架构、技术风险等领域有丰富经验。目前主要牵头哈啰稳定性保障体系化建设,通过人员组织建设、工具/平台建设、关键项目落地等措施保障哈啰所有业务稳定性。 温馨提醒:本文约 6000 字,预计花费 10 分钟阅读。 后台回复“交流”进入读者交流群;回复“复盘”或“模板”获取资料; 在文章开始之前,先给大家讲一个故事,多年之前我有过这样的一段复盘经历: 事情的起因大概是有人做了一个线上变更,后来接到客服反馈说用户投诉增加,研发赶紧分析原因,最后排查发现是有代码 bug 导致的,做了回滚操作后一段时...

