服务器数据恢复—MSA2000存储中raid5磁盘阵列数据恢复案例

简介: 服务器存储数据恢复环境:某品牌MSA2000服务器存储中有一组由8块SAS硬盘组建的raid5磁盘阵列,其中包含一块热备盘。分配了6个LUN,均分配给HP-Unix小机使用。磁盘分区由LVM进行管理,存放的数据主要为Oracle数据库及OA服务端。服务器存储故障:服务器存储raid5阵列中有两块硬盘先后离线,服务器瘫痪,无法正常访问lun。

服务器存储数据恢复环境:
某品牌MSA2000服务器存储中有一组由8块SAS硬盘组建的raid5磁盘阵列,其中包含一块热备盘。分配了6个LUN,均分配给HP-Unix小机使用。磁盘分区由LVM进行管理,存放的数据主要为Oracle数据库及OA服务端。

服务器存储故障:
服务器存储raid5阵列中有两块硬盘先后离线,服务器瘫痪,无法正常访问lun。

服务器存储数据恢复过程:
1、将所有磁盘编号标记后取出故障服务器存储,硬件工程师分别对服务器中所有磁盘进行物理故障检测和坏道检测,均无异常。
将所有磁盘以只读方式镜像成文件,镜像完成后将所有磁盘按照编号还原到故障存储中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
备份完成的部分数据:
001.jpg

2、MSA2000存储中一旦某些磁盘读写性能不稳定,该存储中的raid控制器会将这些磁盘识别为坏盘并踢出RAID。一旦RAID中掉线的盘数到达到采用的RAID级别所允许掉盘的极限,RAID不可用,服务器瘫痪。
3、存储中的LUN都是基于RAID的,要想恢复数据就需要先将原始RAID重组出来。分析Oracle数据库页在每个磁盘中分布的情况,并根据数据分布的情况获取RAID条带大小,盘序、数据走向等重组RAID所需要的信息。
4、根据分析出来的RAID信息重组原始RAID。重组完成后分析LUN在RAID中的分配情况,以及LUN分配的数据块MAP。由于有6个LUN,因此只需要将每一个LUN的数据块分布MAP提取出来。北亚企安数据恢复工程师根据这些信息编写相应的程序,解析所有LUN的数据MAP,然后根据数据MAP导出所有LUN的数据。
导出的部分数据:
002.jpg

5、分析所有LUN,发现所有LUN中均包含LVM逻辑卷信息。尝试解析每个LUN中的LVM信息,发现其中一共有三套LVM:第一个LVM中划分了一个LV,存放OA服务器端的数据;第二个LVM中划分了一个LV,存放临时备份数据;剩下的4个LUN组成一个LVM,划分了一个LV,存放Oracle数据库文件。北亚企安数据恢复工程师编写LVM解释程序,尝试解释每套LVM中的LV卷,但是在解释过程中出错。
6、开发工程师debug程序出错的位置,分析程序报错原因,由文件系统工程师对恢复出来的LUN做检测,检测LVM信息是否会因为存储瘫痪而导致LMV逻辑卷的信息损坏。经过检测发现LVM信息确实被破坏。北亚企安数据恢复工程师尝试人工修复损坏的区域,并同步修改程序重新解析LVM逻辑卷。
7、搭建HP-Unix环境,将解释出来的LV卷映射到HP-Unix。尝试Mount文件系统,结果Mount文件系统出错。尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,修复完成还是不能挂载。怀疑vxfs文件系统元数据被破坏。
8、仔细分析解析出来的LV,根据VXFS文件系统的底层结构校验此文件系统的完整性。分析发现VXFS文件系统确实存在问题,存储瘫痪的同时此文件系统正在执行IO操作,因此部分文件系统元文件损坏。人工修复这些损坏的元文件,直到能够正常解析VXFS文件系统。再次将修复好的LV卷挂载到HP-Unix小机上,尝试Mount文件系统,这回文件系统没有报错,成功挂载。
9、在HP-Unix机器上mount文件系统后,将所有用户数据备份至指定空间。
部分文件目录:
003.jpg

10、使用Oracle数据库文件检测工具“dbv”检测每个数据库文件是否完整,没有发现错误。使用北亚企安自主研发的Oracle数据库检测工具进行检测,发现有部分数据库文件和日志文件校验不一致。由数据库工程师修复此类文件并校验,直到所有文件均通过校验。
11、将恢复出来的Oracle数据库附加到原始生产环境的HP-Unix服务器中,尝试启动Oracle数据库,Oracle数据库启动成功。
004.jpg

12、启动Oracle数据库和OA服务端,通过OA客户端对最新的数据记录以及历史数据记录进行验证,并且安排不同部门人员进行远程验证。经过仔细验证,确认数据完整有效。本次数据恢复工作完成。

相关文章
|
2天前
|
存储 数据挖掘 索引
服务器数据恢复—服务器存储中文件夹丢失的数据恢复案例
服务器存储数据恢复环境: DroboPro FS网络存储,共8块SAS硬盘,组建了一组raid5磁盘阵列。 服务器存储故障: 存储中有一个共享文件夹丢失,该文件夹存放了重要数据。
服务器数据恢复—服务器存储中文件夹丢失的数据恢复案例
|
2天前
|
存储 运维 数据挖掘
服务器数据恢复—raid5热备盘同步失败导致阵列崩溃的数据恢复案例
某品牌DS5300存储,包含一个存储机头和多个磁盘柜,组建了多组RAID5磁盘阵列。 某个磁盘柜中的一组RAID5阵列由15块数据盘和1块热备硬盘组建。该磁盘柜中的某块硬盘离线,热备盘自动替换并开始同步数据,在热备硬盘同步数据的过程中,又有一块硬盘出现问题离线,数据同步失败,该RAID5阵列失效,卷无法挂载访问。
|
4天前
|
存储 运维 小程序
服务器数据恢复—EMC CX4-480存储中riad5数据恢复案例
服务器存储数据恢复环境: EMC CX4-480存储,该存储中有10块硬盘,其中有3块磁盘为掉线磁盘,另外7块磁盘组成一组RAID5磁盘阵列。运维人员在处理掉线磁盘时只添加新的硬盘做rebuild,并没有将掉线的硬盘拔掉,所以存储中有3块掉线的磁盘。 服务器存储故障: 硬盘出现故障离线导致存储中raid5阵列瘫痪。运维人员联系我们数据恢复中心寻求帮助。
|
3天前
|
存储 网络协议 Shell
KVstore :键值映射存储服务器
KVstore :键值映射存储服务器
21 0
|
1天前
|
存储 弹性计算 Linux
阿里云账号注册、完成实名认证、试用云服务器和购买云服务器流程参考
本文为大家介绍新手用户从注册阿里云账号,完成实名认证,然后试用云服务器和购买云服务器的主要流程,适合初次购买和试用阿里云服务器的新手用户参考。
阿里云账号注册、完成实名认证、试用云服务器和购买云服务器流程参考
|
4天前
|
弹性计算
阿里云ECS使用体验
在申请高校学生免费体验阿里云ECS云服务器后的一些使用体验和感受。
|
18小时前
|
弹性计算
阿里云ECS使用体验
在申请高校学生免费体验阿里云ECS云服务器后的一些使用体验和感受。
|
2天前
|
弹性计算 运维 安全
阿里云ecs使用体验
整了台服务器部署项目上线
|
3天前
|
弹性计算
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
|
5天前
|
弹性计算
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得