Centreon Poller 间隙性停止故障排错实录
故障症状
有一个Centreon 单节点监控系统(不含分布式),隔三差五的挂掉,幸好我们安排人手,时不时访问web管理后台,才没出现大的纰漏。其主要症状是Poller失效,但系统其它进程比如Apache、PHP、Centreon-engine等运行正常。
在Centreon Web管理界面重载(reload)或者重启(restart)cbd服务,无效;登录系统,执行指令systemctl start cbd ,也无效,只能重启系统,才能正常。因为这个Centreon 是部署在PVE(Proxmox VE)平台,以虚拟机形式承载的,相关人员不胜其烦,认为是PVE的问题,打算将其备份,然后恢复到PVE的其它物理节点。我想了一下,PVE上那么多虚拟机,虽然是其它应用,但都没出现问题,而且出问题是Centreon的一个应用cbd而已,与虚拟机本身的关系不大,应该另有原因。
分析思路
既然其它服务正常,那么我们就从有故障的cbd服务入手。找到cbd日志所在的目录,其完整路径为/var/log/centreon-broker,查看其下的文件,其大致情况如下:
虽然日志文件很多,但能查到有用信息的文件是centreon-master.log这个,在个案里边,解决故障的日期是11月25日,因此我就查看文件central-broker-master.log-20201125,如果时间再久远一些,系统会自动把旧文件压缩打包,以.gz的形式结尾。Centreon 自带工具zcat,可以直接查看.gz结尾的文件。这里,我随机打开一个,看是否有收获。
果然有报错信息,原来是数据库连接不上。再查看一下11月25日那个日志文件,因为这个文件比其他文件都大,信息应该更详细。
根据报错信息,我的解读就是:Mysql连接不上,导致cbd服务不能正常运行。那么好办,mysql就在本机,顺藤摸瓜查看mysql是什么状况。
先看mysql进程是否运行,哦豁!没运行呢。前边只顾查看centreon开头的进程是否运行,给mysql忘记了。原来肯定是运行着的,不然监控一直就应该处于不正常状态。看了一眼系统日志及磁盘空间使用情况(怕磁盘塞满),未发现有用信息,那么剩下的地方就是Mysql错误日志可以作为选择目标,其所在路径为/var/lib/mysql,文件名以主机名加.err后缀结尾.
打开它,看看到底什么原因所致。
初步判断是字符集的问题。为什么会出现这个问题,可能的原因是我经常对系统执行yum update 升级系统,其它的软件包升级都正常,而Mariadb却没有一次升级成功的。于是就计划尝试对Mariadb进行升级,看问题是否还存在。
故障处理
大致分以下几个步骤进行:
- 先对数据库做完整备份,以备不时之需,步骤不再赘述。
- 用yum remove指令删除数据库。
- 用yum install MariaDB-server MariaDB-client指令重新安装数据库。由于删除数据库软件并不会删除数据库文件,如果运气好的话,直接就可以启动数据库,并用指令mysql_upgrade进行升级。升级完毕,登录Mysql,查看库或者表是否被识别。
- 执行指令 systemctl start cbd 启动服务,查看进程是否运行。
验证
登录Centreon Web管理后台,查看Poller运行状态,图标变成绿色,则表示运行正常,故障处理成功。
继续观察数日,看故障是否还会重现。通过10多天的观察,再也没发生同样的故障,如果有其它监控,可以把这个Centreon也给监控上。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
《Kafka成神之路》之三图搞懂分区、组消费模式
1 分区消费模式 直接由客户端(任一语言编写)使用Kafka提供的协议向服务器发送RPC请求获取数据,服务器接受到客户端的RPC请求后,将数据构造成RPC响应,返回给客户端,客户端解析相应的RPC响应获取数据。 Kafka支持的协议众多,使用比较重要的有: 获取消息的FetchRequest和FetchResponse 获取offset的OffsetRequest和OffsetResponse 提交offset的OffsetCommitRequest和OffsetCommitResponse 获取Metadata的Metadata Request 和 Metadata Response 生产消息的 ProducerRequest 和 ProducerResponse 1.1 分区消费模式服务器端源码过程 2 组消费者模式 2.1 流程 3 总结 3.1 分区消费模式特点 指定消费topic、partition和offset通过向服务 器发送RPC请求进行消费 需要自己提交offset 需要自己处理各种错误,如:leader切换错误 需自行处理消费者负载均衡策略 3.2 组消费模式特点 ...
- 下一篇
我国网络安全产业增速领跑全球 发展驶入“快车道”
2020年,我国网络安全产业规模预计超过1700亿元,较2015年翻一番;网络安全相关企业超过3000家,网络安全上市企业总市值超过5000亿元……在日前举办的2020年中国网络安全产业高峰论坛上,一份份亮丽的成绩单彰显着我国网络安全产业的发展活力。 网络安全产业高速增长 2020年产业规模将超1700亿元 “在北京市的海淀园、通州园、经开区信创园三个国家级网络安全产业园区内,完成注册的企业达到了110多家,聚集了国内众多的网络安全领军企业。”北京市副市长殷勇在提到北京市网络安全产业发展情况时介绍。 网络安全产业园区的蓬勃发展是我国网络安全产业迅猛发展的一个缩影。近年来,我国网络安全产业呈高速增长态势,据中国信通院测算,2020年产业规模将超过1700亿元,较2015年翻一番,增速领跑全球。网络安全产业链条也不断完善,目前我国从事网络安全相关业务的企业超过3000家,覆盖网络安全设备、安全服务、安全软件、安全集成等环节,产业链上下游协同效应进一步增强。 据了解,为提升产业基础能力,工信部已连续三年组织实施工业互联网创新发展工程,累计支持网络安全产业链协同创新、公共服务平台建设等200余...
相关文章
文章评论
共有0条评论来说两句吧...