千奇百怪的数据库故障
昨天阿里云在运维上出现了严重的事故,引发文件删除,让我想起这篇文章,补充再发出来。总有很多情形,你无法想象,数据库的故障遭遇也是如此。 如果没有完善的流程、规范,并且进行规范化的审核,那么什么故障都可能发生,人、流程和工具,必须要互相匹配,完美结合才能发挥最佳效应,而运维就是要疯狂躲避各种坑。 分享几则我们遇到过的客户恢复故障,与大家共为警醒,注意这些都是真实的案例: 服务器找不到了 某次客户找我们恢复数据库,说某个数据库出现故障,原本以为不再需要了,现在还需要其中的数据,可能是时间太久远了,工程师到现场后,客户说服务器找不到了,就算了。 三个月后,客户来电说,服务器找到了,我们又去帮用户恢复了数据。 服务器搬走了 某次客户数据库故障,检查发现,是RAC的某个节点服务器被搬走了,以为不用了,郁闷的是,断电还导致了ASM磁盘头损坏,还好11g修复ASM磁盘头很简单,迅速帮助用户恢复了数据库运行,再搬回服务器,加入节点。 磁盘搬走了 也是今年的某个客户,新上线服务器,客户找了一块以为不用的磁盘,强制拉过来格式化,发现另外一个业务库应声倒下了。 DBA走了 最近提到过的一个客户,因为把DBA...
