一份来自滴滴运维工程师的监控系统建设心得
监控,是运维的眼睛,是稳定性建设中最重要的一环。 一般来讲,基础监控系统的主要功能就是发现问题。 故障发生前,通过监控的看图巡检,发现隐患;故障发生时,通过实时的告警,快速发现问题,定位问题所在;故障发生后,使用过去的历史数据图表,进行事后复盘,避免下次发生。 本篇文章,我们不讨论根因定位、故障自愈之类的高端主题,只跟大家聊一下笔者关于基础监控系统的一些建设心得。 一、一般监控系统的功能 一般的基础监控系统,主要有看图和告警两大功能,通过这两大功能,满足上述的发现问题的需求。 看图的功能,在看单张图的基础上,大部分监控系统会定制一个监控大盘的功能,将多张定义好的监控图,放在一个页面,记录一个URL,每次只要打开这个URL,就能看到自己定义好的所有监控图。 Open-Falcon监控大盘 监控大盘主要适合运维定时巡检的场景。比方说,运维同学把所有业务的核心指标都放在一个监控大盘里,每天早上只要打开这个页面,就可以看到自己业务最核心指标的情况,流量变化、稳定性隐患,一目了然。 二、监控系统模块拆解 我们以Open-Falcon架构图为例,其实这张图看起来复杂,拆解起来却很简单: Open-...