每日一博 | 如何做到人均告警减少 90%?B 站新一代告警平台的设计与实践
一分钟精华速览 B 站的业务规模和用户群体不断扩大,对于服务的稳定性和可用性的要求也日益增高。这就需要 B 站的监控告警系统能够及时、准确地发现和定位问题,以便尽快解决,维护好用户的使用体验。 本文是对 B 站在告警监控系统上的一次重要迭代和优化的详细记录。文章详细阐述了 B 站对告警平台设计思路和优化迭代,以及在实现过程中遇到的问题和解决方法。特别是对于告警定位的精准性和定位效率的提升,文章给出了新的设计方案和实践方法。 作者介绍 哔哩哔哩资深开发工程师——王程田 TakinTalks 稳定性社区专家团成员,哔哩哔哩资深开发工程师。2020 年加入 B 站先后负责事件平台,链路追踪,AIOps 及告警平台方向技术演进 &平台迭代。完成了新一代告警平台落地,达成了 99 分位一分钟内的异常端到端发现,实现了人均告警从每周 1000+条/人到 70+条/人告警治理上的突破。 温馨提醒:本文约 6000 字,预计花费 8 分钟阅读。 TakinTalks稳定性社区后台回复 “交流” 进入读者交流群;回复“1130”获取课件; 背景 在 B 站的多元化业务中,告警平台起着至关重要的作...