每日一博 | 中间件运维之故障自愈
1.背景 1.目前中间件容器节点故障、机器资源不足(磁盘大小、内存大小、cpu)等问题时有发生,接入自动化运维后可快速的处理集群异常问题。 2.以前处理问题需要人工介入,人力成本较大,运维流程缺乏规范。 2.目标 1. 标准化,规范运维流程,制定标准的运维流程。 2. 可视化,运维流程可视化、平台化,做到可追踪,可回溯。 3. 自动化,容器重建,进程启停,部分指标通过根因分析实现故障自愈。 3.故障自愈架构图 故障自愈的监控数据采集模块,周期性将采集到的各实例指标数据上报给处理器,处理器通过调用元数据模块获取匹配规则、故障自愈处理流。匹配异常数据成功并生成运维事件,再经过事件收敛过滤以确保没有大批量相同属性(如同业务、机房等),最后执行对应编排的自愈处理流,运维事件恢复,发送通知,业务恢复正常。 产品架构图: 整体流程图: 4. 方案设计 4.1 故障识别 通过拉取实例监控数据、多指标聚合检测识别出异常,并触发故障自动化流程。 方案一:过滤型检测监控数据 过滤型检测匹配,只跟数据本身有关,时间窗口设定没有要求,数据来一条处理一条。达到设定的异常阈值时触发运维事件。此检测方案过于粗暴,对...
