阿里本地生活EMonitor根因分析大揭秘
背景
阿里集团针对故障处理提出了“1/5/10”的目标-- 1 分钟发现、5 分钟定位、10 分钟恢复,这对我们的定位能力提出了更高的要求。
EMonitor 是一款集成 Tracing 和 Metrics、服务于饿了么所有技术部门的一站式监控系统,其覆盖了
- 前端监控、接入层监控;
- 业务 Trace 和 Metric 监控;
- 所有的中间件监控;
- 容器监控、物理机监控、机房网络监控。
每日处理总数据量近 PB,每日写入指标数据量几百 T,日均几千万的指标查询量,内含上万个图表、数千个指标看板,并且已经将所有层的监控数据打通并串联了起来。但是在故障来临时,用户仍然需要花费大量时间来查看和分析 EMonitor 上的数据。
比如阿里本地生活的下单业务,涉及到诸多应用,每个应用诸多 SOA 服务之间错综复杂的调用关系,每个应用还依赖 DB、Redis、M