BMC hang后恢复的几种方法
BMC hang住后恢复的几种方法
在服务器上一般都会有BMC来检测系统并报告系统的健康状况,从而保证服务器的连续稳定运行。由于BMC本身也是一个由硬件、操作系统、监控应用程序组成的软硬件系统,本身也可能发生故障,甚至导致无法响应系统发过来的IPMI请求,这就是所谓的BMC hang。那么,当BMC出现hang的情景后,有哪些措施可以尝试恢复呢?
首先,可以尝试重新加载服务器端host上BMC的驱动,可以运行下面命令去检查之前IPMI驱动有没有加载:
[root@localhost ~]#lsmod | grep “ipmi”
如果这个命令返回空,就表明当前操作系统没有加载IPMI依赖的驱动,需要手动加载解决。否则可以先
rmmod掉先前的驱动,然后参考下面的命令重新加载:
[root@localhost ~]# cd /usr/lib/modules/3.10.0
3.10.0/ 3.10.0-229.el7.x86_64/
[root@localhost ~]# cd /usr/lib/modules/3.10.0-229.el7.x86_64/kernel/drivers/char/ipmi/
[root@localhost ipmi]# ls
ipmi_devintf.ko ipmi_msghandler.ko ipmi_poweroff.ko ipmi_si.ko ipmi_watchdog.ko
[root@localhost ipmi]# lsmod | grep "ipmi"
ipmi_si 53353 0
ipmi_msghandler 45603 1 ipmi_si
[root@localhost ipmi]# rmmod ipmi_si ipmi_msghandler
[root@localhost ipmi]# modprobe ipmi_devintf.ko
modprobe: FATAL: Module ipmi_devintf.ko not found.
[root@localhost ipmi]# modprobe ipmi_devintf
[root@localhost ipmi]# modprobe ipmi_si
[root@localhost ipmi]# modprobe ipmi_msghandler
You have new mail in /var/spool/mail/root
[root@localhost ipmi]# modprobe ipmi_poweroff
[root@localhost ipmi]# modprobe ipmi_watchdog
加载完成之后,可以再次确认驱动是否加载成功:
[root@localhost ipmi]# lsmod | grep "ipmi"
ipmi_watchdog 24912 0
ipmi_poweroff 14366 0
ipmi_si 53353 2
ipmi_devintf 17572 0
ipmi_msghandler 45603 4 ipmi_devintf,ipmi_poweroff,ipmi_watchdog,ipmi_si
末了,还可以运行一些IPMI命令进一步检查确认,是否IPMI可用:
[root@localhost ipmi]# ipmitool sel elist
1 | 12/29/2015 | 06:51:39 | Processor | Configuration Error | Asserted
2 | 12/29/2015 | 06:55:26 | Processor | Configuration Error | Asserted
3 | 12/29/2015 | 06:55:27 | Processor | Configuration Error | Asserted
4 | 01/13/2016 | 13:43:24 | Watchdog 2 #0xca | Timer interrupt | Asserted
如果上面办法不能解决问题,可能是KCS接口hang住了,可以参考下面的方法解决。
其次,可以尝试通过网络LAN接口能否重启BMC。
比如有一台服务器上的BMC IP为192.168.1.95,并且已经配置远程用户和密码且允许登录,那么可以尝试下面的命令去重启BMC:
[root@localhost ~]# ipmitool -I lanplus -H 192.168.1.95 -U admin -P admin mc reset cold
Sent cold reset command to MC
如果能够BMC重启,再在服务器端运行IPMI命令,观察是否命令能够运行。如果能够运行,就说明KCS接口已经正常。
再者,可以考虑完全把BMC系统掉电,然后重新上电。MC通常可以控制给host上电、关电,它自身除非AC掉电(拔掉电源)总是处于有电状态。因此,这个时候需要拔掉整个BMC和host主机的AC电源,过一会后再重新上电。等系统起来后,再运行IPMI命令看BMC是否正常。如果一切正常,就表明已经AC cycle后BMC已经恢复。
最后,可以连接上BMC的输出串口,检查重新上电后它是否有输出、以及输出停留的地方,以此来定位BMC无法启动的现场,常见的原因包括:
1. BMC 固件被不小心改变;
2.看门狗超时设置太小,某个启动项耗时太长导致系统不停重启、超时、重启.....
3. BMC 固件升级或者在不停地升级。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
zabbix应用-监控mysql slave 主从状态
线上服务的监控已经基本搞定了,现在就剩下mysql 主从的状态没有检测,这里要想用zabbix 监控,还得写一个获取主从状态的脚本,然后设置一个key,创建模板套用这个key 获取mysql 的主从状态是否正常。 1.这里把我的脚本贴一下,脚本要给可执行权限 #!/bin/bash user=zabbixagent passwd=zabbixagent port=$1 #自定义函数 functionstatus{ status=`/data/mysql_root/mysql/bin/mysql-u$user-S/data/mysql_root/mysql/data$port/mysql.socket-p$passwd-e"showslavestatus\G;"|egrep'Slave_IO_Running|Slave_SQL_Running'|awk'{print$2}'|egrep'Yes'|wc-l` if[$status=2];then echo2 else echo1 fi } #引用函数 status 2.自定义key cat /etc/zabbix/zabbix_agent...
- 下一篇
浅谈 ~windows2003操作系统的分区在线扩展
话说由于有些客户的业务系统在2003上运行了好多年,即使迁移到了虚拟化后,仍然不想更换操作系统,windows 2003不像2008或2012操作系统对磁盘的扩展那么方便,直接扩展卷点两下鼠标就可以了。 早上看了下有的朋友写的针对于windows 2003虚拟机的虚拟磁盘扩容后怎么增加分区容量的文章,我也特意写了以下几个方式进行总结。 搭建了一个实验的环境对几种方法进行演示: windows 2003操作系统,此虚拟机共有4块硬盘,分别用于3个实验测试 1、使用diskpart命令对磁盘1扩容演示 磁盘1:己划分一个分区E,扩容了虚拟机的磁盘大小后,在操作系统里重新扫描磁盘看到该磁盘有未分配空间 2、使用Dell Basic Disk Expansiona 工具对磁盘0扩容演示 磁盘0:操作系统盘C,扩容了虚拟机的磁盘大小后,在操作系统里重新扫描磁盘看到该磁盘有未分配空间 3、使用动态磁盘方式对磁盘2和磁盘3的容量进行整合演示 磁盘2:做动态磁盘使用 磁盘3:做动态磁盘使用 --------------------------使用Diskpart命令扩展分区--------------...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS关闭SELinux安全模块
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS6,CentOS7官方镜像安装Oracle11G
- Docker使用Oracle官方镜像安装(12C,18C,19C)