金山办公基于 DeepFlow 的零侵扰可观测性实践
作者:肖圆,高级研发工程师,负责金山办公私有化产品运维平台研发、监控告警体系建设、可观测性体系建设。 金山私有化项目在可观测性建设中,面临数据孤岛和缺乏全局视图的挑战,影响了问题排查效率。为此,引入 DeepFlow 和 eBPF 技术,打通了指标、追踪和日志数据的联动,提供了全局微服务调用关系。通过分阶段建设,已完成第一期目标,实现了从被动排障到主动观测的转变,提升了系统稳定性和运维效率。 01|业务排障面临的痛点 在当前可观测性建设的背景下,金山私有化项目已成功实现对指标(Metrics)、追踪(Traces)和日志(Logs)的全面数据采集与存储,分别采用 Prometheus、Jaeger 和 Loki 进行管理。这些数据源已集成至 Grafana,以便于数据的展示与查询。然而,项目仍面临以下挑战: 数据孤岛问题:三种数据元素之间缺乏有效联动,导致在问题排查时,运维人员需要频繁切换不同数据源。这种孤立的方式不仅增加了故障排查的时间和难度,还可能导致重要信息的遗漏。为了提高排查效率,需要建立统一的视图,将不同类型的数据关联起来,以便于综合分析和快速定位问题根源。 缺乏全局视图:由...