服务器存储数据恢复环境:
一台EMC存储中有一组raid5磁盘阵列,划分1个lun供小型机使用,上层采用ZFS文件系统。
服务器存储故障:
一台有一组raid5磁盘阵列的存储在运行过程中突然崩溃。管理员检查发现存储中的raid5阵列有两块硬盘离线,该阵列中的两块热备盘只有一块热备盘激活成功,raid5阵列瘫痪,存储不可用。
服务器存储数据恢复过程:
1、将故障raid中所有磁盘编号后取出。硬件工程师首先对raid中两块离线硬盘进行物理检测,硬盘无物理故障,无坏道。其他硬盘经过检测也没有发现物理故障和坏道。
以只读方式将所有磁盘进行扇区级的全盘镜像,镜像完成后将所有磁盘按照编号还原到原存储中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
将备份数据的520字节扇区转换为512字节扇区,以方便操作。
2、基于镜像文件分析所有硬盘的底层数据,获取原RAID5阵列的相关信息,并找到最先掉线的那块硬盘。根据这些信息重组原RAID。
3、通过重组的raid分析lun的分配情况和数据块,使用北亚企安自主开发软件提取lun数据,然后对提取出来的lun进行文件系统解析操作。正常情况下解析完成即可恢复数据,但解析文件系统报错。
4、服务器数据恢复工程师检查文件发现ZFS文件系统的部分元文件损坏导致了文件系统无法解析。需要对损坏的ZFS文件系统元文件进行修复后才能正常解析ZFS文件系统。
5、经过分析发现,ZFS文件系统正在进行IO操作的时候存储瘫痪,导致部分元文件没有更新以及部分元文件损坏。人工修复这些损坏的元文件,直到ZFS文件系统能够正常解析。
6、对修复好的ZFS文件系统做解析,解析所有文件节点及目录结构。解析完成后导出raid阵列所有数据。
7、经过用户方的仔细检测,确认恢复出来的数据完整可用。本次数据恢复工作完成。