服务器数据恢复—raid5阵列硬盘离线导致上层LUN不可用的恢复数据案例

简介: 一台服务器上有8块SAS硬盘,其中的7块硬盘组建了一组RAID5阵列,另外1块硬盘作为热备盘使用。划分了6个LUN,服务器上部署有oracle数据库。RAID5磁盘阵列中有2块硬盘出现故障并离线,RAID5阵列瘫痪,上层LUN无法正常使用。经过硬件工程师检测,所有硬盘(包括离线的2块盘)均无物理故障以及坏道。

服务器数据恢复环境&故障:
一台服务器上有8块SAS硬盘,其中的7块硬盘组建了一组RAID5阵列,另外1块硬盘作为热备盘使用。划分了6个LUN,服务器上部署有oracle数据库。
RAID5磁盘阵列中有2块硬盘出现故障并离线,RAID5阵列瘫痪,上层LUN无法正常使用。经过硬件工程师检测,所有硬盘(包括离线的2块盘)均无物理故障以及坏道。

服务器数据恢复过程:
1、将服务器中所有磁盘编号标记后取出,以只读方式将所有磁盘进行扇区级全盘镜像。镜像完成后将所有磁盘按照编号还原到原服务器中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
001.jpg

2、基于镜像文件分析所有磁盘的底层数据。通过分析获取到raid相关信息(条带大小,磁盘顺序及数据走向等),依据这些信息虚拟重组原RAID5阵列。
3、仔细分析每一块硬盘中的数据,通过北亚企安自主开发的RAID校验程序做校验,将先掉线的硬盘剔除出raid。
4、服务器中的的LUN都是基于RAID的,分析LUN在RAID5阵列中的分配情况,以及LUN分配的数据块MAP。
5、将每一个LUN的数据块分布MAP提取出来。北亚企安数据恢复工程师针对这些信息编写相应的程序,解析所有LUN的数据MAP,然后根据数据MAP导出所有LUN的数据。
002.jpg

6、分析所有导出的LUN,发现所有LUN中均包含HP-Unix的LVM逻辑卷信息。尝试解析每个LUN中的LVM信息,发现其中一共有三套LVM:其中一个LVM中划分了一个LV,存放OA服务器端的数据;第二个LVM中也划分了一个LV,存放临时备份数据;第三个LVM由剩余4个LUN组成,划分了一个LV,存放Oracle数据库文件。北亚企安数据恢复工程师编写LVM解释程序,尝试将每个LVM中的LV都解释出来,但解释过程中程序报错。
7、分析程序报错的原因,并让开发工程师debug程序出错的位置,同时安排文件系统工程师检测所有恢复出来的LUN,检测是否会因为存储瘫痪而导致LMV逻辑卷的信息损坏。经过检测,发现存储瘫痪确实导致LVM信息损坏。尝试人工修复损坏的区域,并同步修改程序,重新解析LVM逻辑卷。
8、搭建HP-Unix环境,将解释出来的LV卷映射到HP-Unix,并尝试Mount文件系统,结果Mount文件系统出错。尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,修复完成后还是不能挂载。怀疑底层vxfs文件系统的部分元数据可能被破坏。
9、分析解析出来的LV,并根据VXFS文件系统的底层结构校验此文件系统的完整性。经过分析发现底层VXFS文件系统确实有问题,原来当存储瘫痪的同时此文件系统正在执行IO操作,因此导致部分文件系统元文件损坏。手工修复这些损坏的元文件,直到VXFS文件系统能够正常解析。将修复好的LV挂载到HP-Unix小机上,尝试Mount文件系统,这回文件系统没有报错,成功挂载。
10、在HP-Unix机器上mount文件系统后,将所有用户数据均备份至指定磁盘空间。
部分文件目录截图:
003.jpg

11、使用Oracle数据库文件检测工具“dbv”检测每个数据库文件的完整性,没有发现错误。使用北亚企安自主研发的Oracle数据库检测工具进行检测,发现部分数据库文件和日志文件校验不一致。安排数据库工程师修复此类文件后再次校验,直到所有文件校验均完全通过。
12、将恢复出来的Oracle数据库附加到原始生产环境的HP-Unix服务器中,尝试启动Oracle数据库,Oracle数据库启动成功。
004.jpg

13、由用户方配合,启动Oracle数据库和OA服务端,在本地安装OA客户端。通过OA客户端对最新的数据记录以及历史数据记录进行验证,并且安排用户方单位不同部门人员进行远程验证。经过多方面验证,确认数据完整无误。数据恢复工作完成。

相关文章
|
2月前
|
存储 运维 数据挖掘
服务器数据恢复—EqualLogic存储硬盘出现坏道的数据恢复案例
某品牌EqualLogic PS6100存储阵列上有一组由16块硬盘组建的raid5磁盘阵列。磁盘阵列上层划分多个大小不同的卷,存放虚拟机文件。 硬盘出现故障导致存储阵列不可用,需要恢复存储阵列中的数据。
|
2月前
|
存储 运维 Oracle
服务器数据恢复—存储硬盘指示灯亮黄灯,RAID5阵列崩溃的数据恢复案例
服务器存储数据恢复环境: 某单位一台某品牌DS5300存储,1个机头+4个扩展柜,50块的硬盘组建了两组RAID5阵列。一组raid5阵列有27块硬盘,存放Oracle数据库文件。存储系统上层一共划分了11个卷。 服务器存储故障: 存储设备上两个硬盘指示灯亮黄色。其中一组RAID5阵列崩溃,存储不可用,设备已经过保。
|
2月前
|
存储 运维 数据挖掘
服务器数据恢复—Raid5阵列2块硬盘损坏,热备盘未激活的数据恢复
EMC存储上有一组由多块stat硬盘组建的raid5磁盘阵列,该raid5阵列中有两块热备盘。上层采用的是zfs文件系统。 raid5阵列中2块硬盘出现故障,只有一块热备盘激活。
|
5月前
|
存储 Oracle 关系型数据库
服务器数据恢复—光纤存储上oracle数据库数据恢复案例
一台光纤服务器存储上有16块FC硬盘,上层部署了Oracle数据库。服务器存储前面板2个硬盘指示灯显示异常,存储映射到linux操作系统上的卷挂载不上,业务中断。 通过storage manager查看存储状态,发现逻辑卷状态失败。再查看物理磁盘状态,发现其中一块盘报告“警告”,硬盘指示灯显示异常的2块盘报告“失败”。 将当前存储的完整日志状态备份下来,解析备份出来的存储日志并获得了关于逻辑卷结构的部分信息。
|
6月前
|
数据挖掘
服务器数据恢复——服务器异常断电造成raid5阵列故障的数据恢复案例
某服务器上有一组由12块硬盘组建的raid5磁盘阵列。 机房供电不稳定导致机房中该服务器非正常断电,重启服务器后管理员发现服务器无法正常使用。 意外断电可能会导致服务器上的raid模块损坏。
|
3月前
|
Unix 应用服务中间件 索引
服务器数据恢复—LUN映射出错导致文件系统共享冲突的数据恢复案例
SUN光纤存储系统中有一组由6个硬盘组建的RAID6,划分为若干LUN,MAP到跑不同业务的服务器上,这些服务器上运行的是SOLARIS操作系统。 服务器不存在物理故障。由于公司业务变化,需要增加一台服务器跑新的应用。服务器管理员在原服务器在线的状态下,将其中一个lun映射到一台新服务器上。实际上,这个刚映射过去的卷已经map到了solaris生产系统上的某个lun上了。映射到新服务器后,服务器对这个卷进行初始化的操作,原solaris系统上的磁盘报错,重启服务器后这个卷已经无法挂载。 服务器管理员寻求sun原厂工程师的帮助。sun工程师检测后执行了fsck操作。执行完成后文件系统挂载成功。查
|
2月前
|
存储 SQL 关系型数据库
服务器数据恢复—raid崩溃导致同友存储无法启动的数据恢复
某单位同友存储,存储中有一组raid5磁盘阵列。存储内部共有虚拟机若干台,raid5阵列崩溃导致存储无法启动。
|
3月前
|
存储 数据挖掘 Linux
服务器数据恢复—重装系统导致OceanStor存储上的分区无法访问的数据恢复案例
服务器存储数据恢复环境: 华为OceanStor某型号存储+扩展盘柜,存储中的硬盘组建了raid5磁盘阵列,上层分配了1个lun。 linux操作系统,划分了两个分区,分区一通过lvm扩容,分区二为xfs文件系统。 服务器存储故障: 工作人员重装系统操作失误导致磁盘分区变化,分区二无法访问,数据丢失。
|
4月前
|
存储 算法 数据挖掘
服务器数据恢复—昆腾存储StorNext文件系统数据恢复案例
一台昆腾存储设备中有一组raid5磁盘阵列。阵列上有两块硬盘先后离线,raid5磁盘阵列不可用。
|
3月前
|
存储 数据挖掘 Windows
服务器数据恢复—RAIDZ上层ZFS文件系统数据恢复案例
一台服务器有32块硬盘,采用Windows操作系统。 服务器在正常运行的时候突然变得不可用。没有异常断电、进水、异常操作、机房不稳定等外部因素。服务器管理员重启服务器,但是服务器无法进入系统。管理员联系北亚企安数据恢复工程师要求恢复服务器数据。

热门文章

最新文章

相关产品

  • 云服务器 ECS