AIOps对监控报警架构的挑战
作者简介:周伟 百度高级研发工程师 负责百度智能运维(Noah)监控报警系统、通告平台;在精准报警、精准通告、报警收敛、公/私有云监控等方向具有广泛的实践经验。 干货概览 监控报警是故障发现的重要一环,也是百度在AIOps的最早切入方向之一,目前百度 AIOps 在监控报警方面已经有两个场景取得突出效果:智能异常检测和智能报警合并。 如何支撑 AIOps 算法在监控报警系统的快速落地并产生业务价值,这对监控报警架构提出了很大的挑战!本文首先介绍百度Noah监控报警的功能和业务模型,然后重点分析百度监控报警系统在落地 AIOps 过程中遇到的挑战。 百度Noah监控报警系统 首先我们介绍下百度的标准故障处理流程,如上图所示,主要分为以下7个过程: 故障发生:比如当内网机房核心交换机发生故障时,会造成内网的网络故障,从而导致产品线的流量损失。 故障发现:监控系统实时检测到产品线的流量异常。 故障通告:监控系统会通过短信或电话等渠道通知业务运维人员,产品线流量有异常。 故障止损:业务运维人员会执行故障预案,或者借助故障自愈平台智能地执行故障止损操作,以达到快速止损的目的,常见的操作是将流量...