TIDB监控升级解决panic的漫漫探索之路
原文来源:https://tidb.net/blog/7747fec7 故事背景 上周同事收到tidb生产集群告警,node_exporter组件发生了重启,与同事交流了一下相关历史告警,发现node_exporter组件总是时不时的重启,并触发告警,并且整个集群各个节点都有发生过这个现象。 这里先简单介绍下node_exporter组件相关背景以及它的作用:TiDB 使用开源时序数据库Prometheus作为监控和性能指标信息存储方案,而node_exporter是Prometheus的指标数据收集组件。它负责从目标Jobs收集数据,并把收集到的数据转换为Prometheus支持的时序数据格式。所以在部署集群时,通常会在集群的每个节点都分发并运行node_exporter组件。 经过我们对重启现象的排查确认,认为是node_exporter组件会偶发性的出现panic,导致节点重启,经过与PingCap原厂的工程师反馈这个问题后,建议我们尝试将node_exporter组件的版本进行升级。 我们在本地镜像源里面检查了一下node_exporter组件的版本,发现当前版本是v0.17....




