故障发现、定位提效超 70%,去哪儿可观测体系做了哪些优化?
一分钟精华速览 去哪儿网的原有监控系统在指标数量上展现出了强大实力——上亿指标量和百万级的告警量,但在故障数据方面却稍显不足——订单类故障平均发现时间长达 4 分钟,仅有 20%的订单类故障能在 1 分钟内被发现,近半数的故障处理时长超过 30 分钟。为了解决这些问题,去哪儿网决定从优化故障指标出发,对故障发现、故障根因定位、故障修复等各个环节展开全面优化。 本文将深入探讨这一系列优化改革的详细过程,剖析各个阶段所采用的监控方法和工具,以及在实践过程中遇到的关键问题。 作者介绍 去哪儿网基础架构技术 TL——肖双 TakinTalks 稳定性社区专家团成员。2018 年加入去哪儿网,目前负责去哪儿网 CI/CD、监控平台和云原生相关平台建设。期间负责落地了去哪儿网容器化平台建设,协助业务线大规模应用迁移至容器平台,完成监控系统 Watcher2.0 的改造升级和根因分析系统落地。对监控告警、CI/CD、DevOps 有深入的理解和实践经验。 温馨提醒:本文约 7500 字,预计花费 12 分钟阅读。 「TakinTalks 稳定性社区」公众号后台回复 “交流” 进入读者交流群;回复“1...
