服务器数据恢复案例之服务器raid6中3个磁盘离线导致阵列崩溃的数据恢复案例
服务器故障:
服务器中有一组由6块盘组建的 RAID6,这台网站服务器上运行MYSQL数据库和存放其它类型的文件。该组raid中有两块磁盘离线,管理员没有及时更换磁盘,当第3个磁盘离线,raid崩溃,服务器数据丢失。
服务器数据恢复过程:
1、用户方将服务器送到我们数据恢复中心后,硬件工程师将故障服务器中所有磁盘编号后取出,检查完硬件故障后将这6块磁盘以只读方式完整镜像到北亚企安数据恢复专用存储池中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
2、基于镜像文件分析所有磁盘底层数据,数据恢复工程师发现有两块磁盘离线时间比较早,这2块磁盘上没有写入新的数据。此RAID6采用的双校验,:第一个校验是由普通的XOR运算生成,而第二个校验是由Reed-Solomon算法生成。因为此RAID6较早掉线的两块磁盘早已不写入新数据,所以需要通过第二个校验来恢复数据,否则会导致最新数据的丢失或损坏。
3、服务器数据恢复工程师通过分析获取到原始RAID6的相关参数,然后使用北亚企安自主编写的RAID6恢复软件生成一个完整镜像,再将镜像导回用户方新搭建好的环境中,开机一切正常,经过服务器管理员的仔细验证,没有发现任何问题,用户方认可数据恢复结果。
服务器数据恢复案例之服务器RAID5两个磁盘指示灯显示红色导致服务器崩溃的数据恢复案例
服务器故障:
服务器中有一组使用NetRaid阵列卡+4块磁盘组建的RAID5阵列,上层操作系统为Window2000,运行SQLServer2000数据库。服务器在正常工作时突然有一块硬盘指示灯显示红色,机器仍然在正常运行,一段时间后服务器无法正常工作,这时候又有一个硬盘指示灯显示红色。管理员将故障服务器送到北亚企安数据恢复中心要求恢复其中的数据。
服务器数据恢复过程:
1、数据恢复工程师拿到服务器后将故障服务器通电后开启,服务器启动后自检至阵列时按Ctrl+M进入NetRaid管理程序。查看阵列信息发现有2块硬盘状态为Failed,将其中一块硬盘设置为OnLine,重新启动服务器,硬件自检无效,启动失败。
2、再次启动服务器,自检至阵列时按Ctrl+M进入NetRaid管理程序。选择磁盘阵列,将原来手工设置为OnLine的硬盘重新设置为Failed,然后再把另一块Failed的硬盘设置成OnLine,重新启动服务器后成功进入系统。经过检查发现系统及数据库运行正常,再次进入NetRaid管理程序将剩下的那块状态为Failed的硬盘手动设置为Rebuild,完成重建后再次重启服务器,成功进入系统。经过检查发现阵列和系统都恢复原状了。经过服务器管理员的亲自验证,没有发现任何问题,用户方认可数据恢复结果。
服务器数据恢复案例之服务器硬盘出现坏道/坏扇区离线导致服务器崩溃的数据恢复案例
服务器故障:
一台有20块硬盘的服务器,在运行过程中上层业务突然崩溃,管理员检查后发现服务器崩溃的原因是服务器上有3块磁盘离线,管理员将服务器内的所有磁盘编号后按照现有盘序从槽位取出送到北亚企安数据恢复中心要求恢复服务器中的数据。
服务器数据恢复过程:
1、拿到故障服务器中所有磁盘后,硬件工程师对20块硬盘进行硬件故障检测,经过检测所有硬盘均可识别,没有发现明显的硬件故障。
2、以只读方式将所有硬盘做扇区级别的完整镜像,在镜像过程中发现离线的3块磁盘镜像速度异常,结合之前三块磁盘离线,可以判断这三块离线的磁盘应该存在大量的坏道或者不稳定扇区。调整镜像策略跳过硬盘的坏扇区继续做镜像,直到所有磁盘都完成镜像。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始数据造成二次破坏。
3、基于镜像文件分析所有磁盘的底层数据,通过逆向分析ext3文件系统获取服务器内磁盘盘序和校验信息,利用获取到的raid信息重组raid阵列。
4、和用户方的沟通后,北亚企安数据恢复工程师提取了故障服务器中运行的oracle数据库的dmp文件,然后尝试将dmp文件导入来恢复oracle数据库数据,结果数据库报告imp-0008错误。分析日志文件后发现提取的dmp文件存在问题,所以导致dmp文件导入失败。
5、重新分析raid结构,进一步确定ext3文件系统被破坏的程度。经过数小时的分析后重新提取dmp文件和dbf原始库文件,将提取出来的dmp文件移交给用户方进行数据导入的测试,经过测试没有发现问题。对提取出来的dbf原始库文件进行校验&检测,所有文件均通过测试。
6、用户方对恢复数据进行验证后认可数据恢复结果。在服务器上搭建了一组新的raid阵列,在数据恢复工程师的帮助下将所有数据迁移到新准备的环境中。