一次Hbase删库的故障恢复--Linux EXT4 文件恢复原理分析
作者 赵成 日期 2018-05-02 标签 文件恢复, Hbase, Ext4, ext4magic, extundelete , 删库 前言 误删库(删文件) 是生产运维中最严重的故障。Hadoop大数据环境下,数据的备份与恢复都面临比传统数据库更加严峻的挑战。 作者参加的一次Hbase删库故障恢复中,由于所用Hbase版本旧,未支持snapshot的备份机制,未做任何备份。在删库误操作发出5分钟后,操作人员取消了命令,并停止了外部业务对Hbase的访问。根据日志,删除命令已发送到datanode节点,hadoop文件目录下,只有一个数据文件(128M),故障前有效数据在几个T。由于发生故障后,很快停止了对故障机器的访问,操作系统应该只是标记了文件的删除,实际数据应该在操作系统内核层面可见。 由于删除操作涉及了大量的文件,导致Ext4中的Journal日志被覆盖,无法恢复出所有的文件元信息。因此恢复的技术路线是直接在ext4层面读取数据块,根据hbase格式直接解析内容(特征码扫描方式)。下面梳理与描述了Ext4 文件恢复的大致原理,供各位同学参考。debugfs与ext4magi...