【直播回顾】1024 守护者之夜:用可观测性点亮系统稳定(附PPT)
当代码融入黑夜,当系统静默运行,是谁在守护着数字世界的稳定与安宁? 又是一年 1024 ,由快猫星云主办的 1024 程序员节特别直播“1024守护者之夜:用可观测性点亮系统稳定”已于前一晚圆满落幕。 在这个充满极客精神的夜晚,快猫星云联创& CMO 秦晓辉、B站 SRE 负责人武安闯、OSCHINA.NET 负责人林师授三位行业大咖,以“系统稳定性建设”为题,从实战体系、高效方法论、社区应对策略等多个维度,为大家带来从硬核技术分享。 直播精彩回顾 分享一:《 SRE 稳定性体系建设分享》 快猫星云联创& CMO 秦晓辉 “ 可观测性,其实最核心应该从 SLO(服务等级目标)着手,需要与业务团队一起率先梳理好 SLO 。”秦晓辉老师表示,SLO 这个指标,是谁拍板呢?其实应该是业务团队来拍,而不是运维人员:根据业务的实际需要,制定出错误预算,以及预估消耗完错误预算之后,系统呈现怎样的行为,这些都是需要提前梳理的内容。 直播中,秦晓辉老师举了一个 Google SRE 的典型案例:以 28 天为周期,形成 SLO 的计算窗口,在这个窗口中,将上线的稳定性着以次之,从而凸显...
