EMC FC AX-4存储崩溃数据恢复案例_raid数据恢复

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
函数计算FC,每月15万CU 3个月
简介:
一、故障描述
北京一家医院的EMC FC AX-4存储崩溃、raid瘫痪。北亚数据恢复中心接到客户电话后第一时间安排工程师携带服务器赶赴用户现场。经过工程师初检发现存储空间由1TB STAT的硬盘共12块组成raid5,其中两块是热备盘,目前设备中有两块硬盘损坏但只有一块热备盘激活成功,因此此raid5阵列瘫痪、上层lun无法正常使用。先对所以磁盘进行物理检测没有发现物理故障,后使用坏道检测工具进行坏道检测也没有坏道存在。</br>
raid数据恢复_EMC存储数据恢复
</br>
二、备份数据
由于数据恢复工作的特殊性,在数据恢复之前必须对所有原始数据进行备份,在本次raid5数据恢复中我们使用winhex把全部磁盘镜像成文件,由于源磁盘的扇区大小是520字节,所以还需要使用特殊工具把所有备份的数据再做520 to 512字节的转换。
</br>
三、故障分析及恢复过程
1、分析故障原因。由于设备中并不存在物理故障和坏道,由此推断故障原因是部分磁盘读写不稳定导致的,因为EMC控制器有着非常严格的检查磁盘策略,如果发生磁盘性能不稳定的情况就会被EMC控制器认定为坏盘踢出raid组,当raid组中掉线盘达到raid级别的允许掉盘极限,此raid组即不可用,基于此raid的上层lun不可用。在本案例中只有一个lun分配给sun小机,上层文件系统是ZFS。</br>
raid数据恢复_EMC存储数据恢复
</br>
2、分析RAID组结构。EMC存储的LUN都是基于RAID组的,因此需要先分析底层RAID组的信息,然后根据分析的信息重构原始的RAID组。通过对所有硬盘数据分析发现8号盘和11号盘完全没有数据,从管理界面上可以看到8号盘和11号盘都属于Hot Spare,但8号盘的Hot Spare替换了5号盘的坏盘。因此可以判断虽然8号盘的Hot Spare虽然成功激活,但由于RAID级别为RAID5,此时RAID组中还缺失一块硬盘,所以导致数据没有同步到8号硬盘中(frombyte.com)。继续分析其他10块硬盘,分析数据在硬盘中分布的规律,RAID条带的大小,以及每块磁盘的顺序。
</br>
3、分析RAID组掉线盘。根据上述分析的RAID信息,尝试通过北亚自主开发的RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中一共掉线两块盘,因此需要分析这两块硬盘掉线的顺序。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,通过北亚自主开发的RAID校验程序对这个条带做校验,发现除掉刚才分析的那块硬盘得出的数据是最好的,因此可以明确最先掉线的硬盘了。
</br>
4、分析RAID组中的LUN信息。由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组重组出来。然后分析LUN在RAID组中的分配信息,以及LUN分配的数据块MAP。由于底层只有一个LUN,因此只需要分析一份LUN信息就OK了。然后根据这些信息使用北亚raid恢复(frombyte.com)程序,解释LUN的数据MAP并导出LUN的所有数据。
</br>
四、解释ZFS文件系统并修复
1、解释ZFS文件系统。利用北亚数据恢复自主开发的ZFS文件系统解释程序对生成的LUN做文件系统解释,发现程序在解释某些文件系统元文件的时候报错。于是安排开发工程师对程序做debug调试并分析程序报错原因。接着安排文件系统工程师分析ZFS文件系统是否因为版本原因,导致程序不支持。经过长达7小时的分析与调试,发现ZFS文件系统因存储突然瘫痪导致其中某些元文件损坏,从而导致解释ZFS文件系统的程序无法正常解释。
</br>
2、修复ZFS文件系统。以上分析明确了ZFS文件系统因存储瘫痪导致部分文件系统元文件损坏,因此需要对这些损坏的文件系统元文件做修复才能正常解析ZFS文件系统。分析损坏的元文件发现,因当初ZFS文件正在进行IO操作的同时存储瘫痪,导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复,保证ZFS文件系统能够正常解析。
</br>
五、导出并验证数据
利用程序对修复好的ZFS文件系统做解析,解析所有文件节点及目录结构。由于数据都是文本类型及DCM图片,需要搭建太多的环境。由用户方工程师指点某些数据进行验证,验证结果都没有问题,数据均完整。
</br>
六、数据恢复结论
由于故障发生后保存现场环境良好,没用做相关危险的操作,对后期的数据恢复有很大的帮助。整个数据恢复过程中虽然遇到好多技术瓶颈,但也都一一解决。最终在预期的时间内完成整个数据恢复,恢复的数据用户方也相当满意。








本文转自 宋国建 51CTO博客,原文链接:http://blog.51cto.com/sun510/2045148,如需转载请自行联系原作者
相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
相关文章
|
10月前
|
存储 Serverless 云计算
函数计算FC存储和流量的费用比例,
函数计算FC存储和流量的费用比例, 有历史经验可以参考么?
62 2
|
10月前
|
存储 Serverless
可以在函数计算FC中使用这些挂载目录来存储和访问你的文件和数据
可以在函数计算FC中使用这些挂载目录来存储和访问你的文件和数据
66 1
|
存储 人工智能 Serverless
将Stable Diffusion模型文件转存到FC环境的NAS
本文将会指导你开通基于NAS的Stable Diffusion 函数计算FC环境,并且可以将SD模型库的模型转存下载到FC应用下的NAS存储空间
3393 2
将Stable Diffusion模型文件转存到FC环境的NAS
|
12月前
|
编解码 运维 监控
课时9:典型案例2:函数计算在音视频场景实践
课时9:典型案例2:函数计算在音视频场景实践
303 0
|
存储 运维 Serverless
【函数计算实践】一个应用案例
本文起源于一个用户匹配的需求。用户的不同信息分布于两个系统,且客观上无法直接打通(不必纠结具体是什么场景,这是真实存在,且非技术上能解决的),所以就涉及到两个系统id匹配的问题。
263 0
|
14天前
|
消息中间件 存储 Serverless
函数计算产品使用问题之怎么访问网络附加存储(NAS)存储模型文件
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
1月前
|
运维 Kubernetes Serverless
Serverless Argo Workflows荣获信通院标杆实践案例,引领大规模离线任务处理新方法
阿里云容器服务Serverless Argo Workflows大规模离线计算工作流平台荣获2024信通院Serveless实践标杆案例。本文介绍其应用场景、平台特性以及领域实践。
|
2月前
|
存储 弹性计算 监控
函数计算产品使用问题之如何扩容存储
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
弹性计算 Cloud Native 安全
【阿里云云原生专栏】云原生与芬克斯:阿里云函数计算在金融行业的应用案例
【5月更文挑战第26天】阿里云函数计算在金融行业数字化转型中发挥关键作用,提供高可用、安全、灵活且成本效益的解决方案。通过事件驱动架构和弹性伸缩,适应业务波动,确保服务连续性。在实时风控系统案例中,函数计算实现低延迟评估,提升风控效率。此技术助力金融企业快速创新,增强市场竞争力。
342 0
|
4月前
|
存储 运维 Serverless
Serverless 应用引擎产品使用之在函数计算中绑定非本地域的 NAS 存储如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。

热门文章

最新文章