服务器数据恢复—Raid5阵列两块硬盘硬件故障掉线的数据恢复案例

简介: 服务器数据恢复环境:一台某品牌存储设备上有一组由10块硬盘(9块数据盘+1块热备盘)组建的raid5阵列,上层部署vmware exsi虚拟化平台。服务器故障:raid5阵列中两块硬盘对应的指示灯亮黄灯掉线。硬盘序列号无法读取,通过SAS扩展卡也无法读取。

服务器数据恢复环境:
一台某品牌存储设备上有一组由10块硬盘(9块数据盘+1块热备盘)组建的raid5阵列,上层部署vmware exsi虚拟化平台。

服务器故障:
raid5阵列中两块硬盘对应的指示灯亮黄灯掉线。硬盘序列号无法读取,通过SAS扩展卡也无法读取。

服务器数据恢复过程:
1、将存储中所有磁盘标记后取出。将掉线的其中一块故障盘连接到外部的SAS扩展卡上,加电后通过硬盘声音判断电机可以启动,但是磁头没有进行寻道操作。硬件工程师将硬盘PCB分离下来清洁HDA组件氧化部分,清洁后故障依旧。和用户方沟通并得到同意后,硬件工程师在无尘室将热备盘的PCB替换到故障盘上,并将故障盘PCB上的ROM芯片替换到从热备盘上取出的PCB上面。这时硬盘的电机起转和磁头寻道声音正常,但是在寻道结束后,有明显的敲盘声音,基本上可以判断磁头损坏。和用户方沟通后使用热备盘中的磁头替换故障盘上的磁头,不幸的是这块故障盘已经无法识别,无法读取数据。
再次和用户方沟通后尝试对另一块故障盘进行修复。和第一块故障盘一样,这块故障盘的磁头损坏,通过各种渠道找到相同型号的硬盘并更换磁头。更换磁头后这块故障盘能够被正常识别,于是将这块故障盘所有扇区以只读方式做完整镜像。其他完好硬盘也以只读方式做扇区级全盘镜像。镜像完成后将所有磁盘按照原样还原到存储设备中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始数据造成二次破坏。
2、判断起始扇区。
所有硬盘镜像完成后,使用工具打开9块数据盘,9块盘的0扇区都有“55 AA”标志。
001.jpg

0x01C2H处显示“05”,表示这是一个扩展分区。从0扇区看这是一个不正常的MBR分区结构。
002.jpg

继续往下找,在另外的2块盘上找到了“55 AA”的标志。其中一块盘上是一个正常的MBR分区,其0x01C6处数值代表指向的下一个扇区为GPT的头部。
003.jpg

另外一块盘的0x01C6处数值表示指向下的一个扇区不是GPT的头部。
004.jpg

由此可以确定这2块盘中其中一块是第一块盘,另外一块盘可能是最后一块盘。GPT分区所在扇区起始于172032扇区,因此初步确定LUN的起始扇区是172032扇区。
3、判断条带(stripe)大小。
条带也称块,是RAID处理数据的基本单元。不同RAID的条带大小各不相同。RAID5的1个条带组中有1个校验区,1个校验区的大小等于1个条带的大小。根据这个特征分析这个RAID5。如果对VMFS不熟悉,可以通过比较法确定条带大小。如果某一条带组中的校验区和该条带组中的非校验区相差很明显,通过工具查看并对比就可以找出条带大小。北亚企安数据恢复工程师通过上述方法判断出本案例中条带大小是1024个扇区。
4、判断RAID5阵列成员盘盘序。
按照1024扇区进行分割,使一个记录为一个条带的大小,9块盘跳到同一记录283123。
005.jpg

当9块盘都定位到同一位置时,通过对比可以判断校验区的走向,继而判断整个RAID5的走向。将之前判断出的第一块盘放在第一个位置就可以判断走向了。北亚企安数据恢复工程师通过上述方法判断出本案例中raid5的走向和盘序。
006.jpg

5、前面的步骤中已经确定LUN的起始扇区是172032扇区。跳到172032扇区并观察各硬盘的情况。如果172032扇区是LUN的起始扇区,那么这个扇区所属条带中的那块盘应该是校验区,但是此条带中却显示另外一块盘是检验区。根据RAID5的左走向,172032扇区所属条带中的那块盘的校验区应该在172032-1024=171008扇区,即上一个条带。跳转到171008扇区,却发现校验区为172032扇区所属条带显示的另外一块盘,因此可以确定LUN的起始扇区为171008扇区。
6、在工具中按照确定的盘序组织好磁盘并添加进去,选择RAID5,Stripe size 512KB,左异步。
007.jpg

点击Build重组raid5。由于数据从1024*8=8192个扇区开始,若工具没有跳转到此扇区的功能,那么刚组好的RAID必须和一个文件再进行一次重组操作。RAID的起始扇区选择8192,这个文件可以任意选择起始扇区和大小。
008.jpg
009.jpg
010.jpg

7、移交数据。RAID5重组完成后,联系用户方验收数据。经过验证,用户方确认数据没有问题。根据用户方要求把数据移交到用户方带来的新盘上。

相关文章
|
6天前
|
数据挖掘
服务器数据恢复—服务器raid5阵列中2块硬盘掉线的数据恢复案例
某公司一台服务器,服务器上有一组由8块硬盘组建的raid5磁盘阵列。 磁盘阵列中2块硬盘的指示灯显示异常,其他硬盘指示灯显示正常。上层应用不可用。
|
2天前
|
存储 人工智能 运维
阿里云操作系统控制台——解决服务器磁盘I/O故障
阿里云操作系统控制台——解决服务器磁盘I/O故障
29 12
|
4天前
|
存储 运维
服务器数据恢复—服务器raid5阵列中硬盘离线的数据恢复案例
某公司一台服务器中有一组多块硬盘组成的磁盘阵列。磁盘阵列中有2块硬盘出现故障离线,服务器崩溃,上层数据丢失。
|
1月前
|
存储 SQL 关系型数据库
服务器数据恢复—云服务器上mysql数据库数据恢复案例
某ECS网站服务器,linux操作系统+mysql数据库。mysql数据库采用innodb作为默认存储引擎。 在执行数据库版本更新测试时,操作人员误误将在本来应该在测试库执行的sql脚本在生产库上执行,导致生产库上部分表被truncate,还有部分表中少量数据被delete。
65 25
|
11天前
|
存储 运维 数据挖掘
服务器数据恢复—服务器raid5阵列硬盘出现坏道掉线的数据恢复案例
一台服务器中有一组由16块SAS接口的硬盘组建的raid5阵列。 服务器磁盘阵列中有2块硬盘离线,服务器上跑的应用崩溃。 经过后续的分析发现丢失的数据为虚拟机文件,包含4个卷的数据。
|
25天前
|
存储 机器学习/深度学习 人工智能
2025年阿里云GPU服务器租用价格、选型策略与应用场景详解
随着AI与高性能计算需求的增长,阿里云提供了多种GPU实例,如NVIDIA V100、A10、T4等,适配不同场景。2025年重点实例中,V100实例GN6v单月3830元起,适合大规模训练;A10实例GN7i单月3213.99元起,适用于混合负载。计费模式有按量付费和包年包月,后者成本更低。针对AI训练、图形渲染及轻量级推理等场景,推荐不同配置以优化成本和性能。阿里云还提供抢占式实例、ESSD云盘等资源优化策略,支持eRDMA网络加速和倚天ARM架构,助力企业在2025年实现智能计算的效率与成本最优平衡。 (该简介为原文内容的高度概括,符合要求的字符限制。)
|
2天前
|
弹性计算 运维 监控
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
本文介绍了如何通过阿里云获取ECS云服务器并进行操作系统配置与组件安装,以实现高效的资源管理和系统监控。阿里云凭借强大的基础设施和丰富的服务成为用户首选。文中详细描述了获取ECS、RAM授权、开通操作系统控制台及组件安装的步骤,并展示了如何利用控制台实时监控性能指标、诊断系统问题及优化性能。特别针对idle进程进行了深入分析,提出了优化建议。最后,建议定期进行系统健康检查,并希望阿里云能推出更友好的低成本套餐,满足学生等群体的需求。
51 17
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
|
3天前
|
弹性计算 Linux 数据安全/隐私保护
阿里云幻兽帕鲁联机服务器搭建全攻略,速来抄作业!2025新版教程
阿里云提供2025年最新幻兽帕鲁服务器申请购买及一键开服教程。4核16G配置支持8人,70元/月;8核32G配置支持20人,160元/月。选择配置、地域、操作系统后,点击【一键购买及部署】,约3分钟完成创建。本地安装STEAM客户端并登录,进入游戏选择多人模式,输入服务器IP和端口(8211),即可开始游戏。详细教程及更多问题解答请参考阿里云幻兽帕鲁游戏专区。
43 20
|
5天前
|
弹性计算 数据可视化 Linux
阿里云操作系统控制台——ECS操作与性能优化
本文详细介绍如何操作阿里云服务器ECS,从开通到组件安装及内存诊断。首先,通过选择操作系统(如Alibaba Cloud Linux 3)并开通服务,创建RAM用户并授予权限。接着,安装所需组件,支持节点或集群安装。最后,利用内存全景诊断功能,输入实例ID或Pod名称发起诊断并解析结果。这一流程帮助用户高效搭建计算环境,提升技术能力,确保业务稳定运行,并提出优化建议以改善用户体验。
58 8
|
5天前
|
弹性计算 运维 Cloud Native
阿里云虚拟主机、轻量应用服务器、云服务器、云·速成美站、云·原生建站区别及选择参考
在选择阿里云产品完整自己网站搭建的时候,面对云虚拟主机、轻量应用服务器、云服务器ECS、云·速成美站和云·原生建站等多种选择,很多用户不是很清楚他们之间的区别。每种产品都有其独特的优势和适用场景,如何根据自己的需求和技术背景选择最适合的建站产品,成为了用户关注的焦点。本文将详细比较阿里云这五种建站产品的优势和劣势,以及它们的适用人群,以供选择参考。