EVA数据恢复—EVA存储中磁盘掉线导致LUN不可用的数据恢复案例

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
无影云电脑个人版,1个月黄金款+200核时
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
简介: EVA存储数据恢复环境:EVA控制器+三个扩展柜+数十块FC硬盘。EVA存储故障&检测:磁盘掉线导致存储中的部分LUN丢失,部分LUN损坏不可用。由于是磁盘掉线导致存储中的LUN不可用。拿到所有磁盘后,先由硬件工程师对所有磁盘做物理故障检测,经过检测,没有发现有硬盘存在物理故障,都可以正常读取。使用坏道检测工具检测磁盘坏道,也没有发现有硬盘存在坏道。

EVA存储数据恢复环境:
EVA控制器+三个扩展柜+数十块FC硬盘。

EVA存储故障&检测:
磁盘掉线导致存储中的部分LUN丢失,部分LUN损坏不可用。
由于是磁盘掉线导致存储中的LUN不可用。拿到所有磁盘后,先由硬件工程师对所有磁盘做物理故障检测,经过检测,没有发现有硬盘存在物理故障,都可以正常读取。使用坏道检测工具检测磁盘坏道,也没有发现有硬盘存在坏道。
磁盘坏道检测日志:
01.jpg


EVA存储数据恢复过程:

1、将所有磁盘以只读方式进行扇区级全盘镜像备份,镜像完成后将所有磁盘归还用户方,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。部分备份数据如下:
02.jpg

2、由于所有磁盘都没有检测出物理故障或者坏道,因此可以初步判断磁盘掉线是某些磁盘读写不稳定造成的。EVA控制器的磁盘检查策略非常严格,会将性能不稳定的磁盘识别为坏盘并踢出磁盘组。一旦某个LUN的同一个条带中掉线的磁盘数量超过极限,这个LUN将不可用。如果EVA存储中所有的LUN都包含这些掉线的盘,所有LUN都会受影响。所以磁盘掉线导致整个EVA存储的LUN不可用的情况也可能出现。本案例中的情况是8个LUN正常,7个LUN损坏,6个LUN丢失。用户方要求恢复所有LUN的数据。
3、EVA存储的LUN是以RAID条目的形式存储数据的,EVA将每个磁盘的不同块组成一个RAID条目,RAID条目的类型有很多种。恢复数据之前需要分析出组成LUN的RAID条目类型以及RAID条目是由哪些盘的哪些块组成。这些信息都存放在LUN_MAP中,每个LUN都有一份LUN_MAP。EVA将LUN_MAP分别存放在不同的磁盘中并通过一个索引来指定其位置。因此在磁盘中找这个指向LUN_MAP的索引就可以找到现存LUN的信息。
4、虽然磁盘中记录了指向LUN_MAP的索引,但是它只记录现存的LUN,丢失的LUN是不会记录索引的。EVA中删除一个LUN只会清除这个LUN的索引,而不会清除这个LUN的LUN_MAP。所以只需要扫描所有磁盘找到所有符合LUN_MAP的数据块,然后排除掉现有的LUN_MAP,剩下的也不一定全是删除的LUN的LUN_MAP,也有一些是以前旧的LUN的LUN_MAP。使用北亚企安自主开发的程序将所有LUN_MAP的数据都恢复出来,然后通过人工去核对哪些是属于删除LUN的LUN_MAP。
5、虽然所有磁盘经过检测没有发现明显物理故障和坏道,但是可能会因为性能不稳定而被踢出磁盘组。这些被踢出的磁盘中存放了旧的数据,在生成数据的时候需要将这些磁盘都排除掉。如何判断哪些磁盘是掉线的呢?由于本案例中LUN的RAID级别大多是RAID5,只需要将一个LUN的RAID条目通过RAID5的校验算法算出校验值,再和原有的校验值作比较就可以判断这个条目中是否有掉线盘。将一个LUN的所有LUN_MAP都校验一遍就可以知道这个LUN中哪些RAID条目中有掉线盘,而这些RAID条目中都存在的那个盘就一定是掉线盘。排除掉线盘,然后根据LUN_MAP恢复所有LUN的数据即可。
6、北亚企安数据恢复工程师编写程序扫描全部LUN_MAP,结合人工分析获取到准确的LUN_MAP。北亚企安数据恢复工程师编写检测RAID条目的程序检测所有LUN中掉线的磁盘,结合人工分析排除掉线的磁盘。北亚企安数据恢复工程师编写LUN数据恢复程序,结合LUN_MAP恢复所有LUN数据。
7、人工核对每个LUN,确认是否和用户方工程师描述的一致。
部分LUN的数据:
03.jpg

8、用户方对恢复出来的所有数据进行仔细检验后确认数据完整有效,认可本次数据恢复结果。本次服务器数据恢复工作完成。

相关文章
|
7月前
|
应用服务中间件 nginx Docker
Docker:WARNING: Published ports are discarded when using host network mode 解决方法
Docker在使用 `host`网络模式时会忽略端口映射,因为此模式下容器已经直接暴露在主机网络上。通过理解并合理选择网络模式,可以有效解决 `WARNING: Published ports are discarded when using host network mode`的警告。根据具体需求,选择适合的网络模式,以便在保证性能的同时确保灵活性和安全性。希望本文提供的方法和分析能帮助您在使用Docker时更好地处理网络配置问题。
1325 12
|
11月前
|
监控 BI Python
python django教学质量评价系统,实现学生、教师、管理员不同角色管理
本文介绍了一个基于Django框架开发的教学质量评价系统,该系统为学生、教师和管理员提供了不同角色的管理和评价功能,实现了教学质量的全方位评估和管理,旨在提高教育质量和促进教学改革。
201 5
python django教学质量评价系统,实现学生、教师、管理员不同角色管理
|
11月前
|
弹性计算 网络安全
快速部署 RAGFlow 社区版
RAGFlow是一个基于深度文档理解的开源RAG(检索增强生成)引擎。当与LLM集成时,它能够提供真实的问答功能,并得到各种复杂格式数据的充分引用的支持。本文介绍如何通过计算巢快速部署 RAGFlow社区版。
快速部署 RAGFlow 社区版
|
12月前
|
监控 安全 网络安全
|
数据安全/隐私保护 Docker 容器
error: Could not get shadow information for NOUSER 问题如何处理
【6月更文挑战第15天】error: Could not get shadow information for NOUSER 问题如何处理
1353 3
|
网络协议 持续交付
【软考备战·希赛网每日一练】2023年4月14日
具有 最优子结构 特点的问题可以使用 动态规划法 进行求解。 计算m数组中每项的值,需要三层for循环(循环变量依次为i,j,k),所以 时间复杂度为O(n3)。 需要 二维数组m 来进行记录数据,所以 空间复杂度为O(n2)。 最后一空直接计算每个选项的相乘次数,相乘次数最少得即为答案。
103 0
|
前端开发 Android开发 开发者
|
运维 Oracle JavaScript
Oracle OCP和MySQL OCP认证考试内容有哪些?
Oracle和MySQL数据库是世界上最流行的两种数据库,根据数据库权威网站db-engines的排名,这两种数据库是唯一超过1000分的两种数据库。
909 0
|
机器学习/深度学习 数据采集 数据可视化
基于阿里云平台的大数据教学案例 —— 中国二手车市场盈利部分数据分析
中国二手车市场潜力很大,面对如此市场行情,我们将用数据分析的方法,分析过去并使用机器学习进行建模和预测,以让即将接触或者正处于经营的商家对市场有着新的认识,且可以通过对历史数据分析后的可视化的图表展示,帮助买家在购买二手车方面提供帮助。
2328 0
基于阿里云平台的大数据教学案例 —— 中国二手车市场盈利部分数据分析