服务器数据恢复环境:
两组分别由4块SAS接口硬盘组建的raid5阵列,两组raid5阵列划分LUN并由LVM管理,格式化为EXT3文件系统。
服务器故障:
RAID5阵列中一块硬盘未知原因离线,热备盘自动激活上线替换离线硬盘。在热备盘上线过程中,raid5阵列中又有一块硬盘离线。热备盘同步失败,该raid阵列崩溃,LVM结构变得不完整,文件系统无法正常使用。
将故障RAID5阵列中的两块离线硬盘标记后取出进行检测,发现先离线硬盘无法识别,初步推断该盘存在硬件故障,需要开盘修复,另一块硬盘可以正常识别。
服务器数据恢复过程:
1、将故障raid中其他没有离线的硬盘标记后取出。硬件工程师对这些硬盘进行检测后没有发现有硬盘存在明显硬件故障,都可以正常读取。以只读方式将完好的硬盘进行扇区级全盘镜像。镜像完成后将所有磁盘按照原样还原到原服务器中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。硬件工程师在无尘工作间对故障硬盘进行开盘修复操作。开盘后发现该硬盘盘片磨损严重,无法修复,只能对阵列进行缺盘处理。
为了安全起见,对另一组raid阵列的全部成员盘进行只读全盘镜像。
2、基于镜像文件分析硬盘底层数据。解析EXT3文件系统结构,分析两组raid5阵列的盘序、条带大小、校验方向等配置信息。根据上述分析出来的信息重组两组raid5阵列。由于有一块硬盘无法修复,所以在重组故障raid时只能做缺盘处理。
3、两组raid5阵列重组完成后分析底层数据,找到LVM结构信息并分析LVM结构。将两组raid中作为PV(LVM物理卷)的LUN导出,然后将两个PV重组,重新生成LVM逻辑卷。
4、LVM重组完成之后,使用北亚企安自主开发的工具解析LV(逻辑卷)中的EXT3文件系统,恢复并导出其中的全部数据。
5、在恢复出来的数据中挑选部分压缩文件进行校验,发现部分文件损坏。对比解析结果和恢复结果,发现部分文件损坏且无法恢复。经过分析,初步判断文件损坏与两组raid中部分硬盘存在坏道有关。
两组raid中部分硬盘坏道情况:
Raid 1:2# 67 bad source sectors encountered.
4# 13 bad source sectors encountered.
Raid 2:2# 37 bad source sectors encountered.
6、由于故障硬盘损坏严重,无法修复,且部分硬盘存在坏道,导致raid结构存在缺陷,部分文件损坏。经过用户方验证,大部份文件恢复出来了,只有小部分文件丢失或者损坏,用户方认可数据恢复结果。