服务器数据恢复—raid5阵列+vxfs文件系统数据恢复案例

简介: 服务器存储数据恢复环境:某品牌MSA2000FC存储中有一组由7块盘组建的RAID5阵列,另外还有1块硬盘作为热备盘使用。基于RAID5阵列划分的几个LUN分配给小机使用,存储空间通过LVM管理,重要数据为Oracle数据库及OA服务端。服务器存储故障:RAID5阵列中2块硬盘离线,唯一的热备盘成功激活,RAID5阵列还是变得不可用,上层LUN无法使用。

服务器存储数据恢复环境:
某品牌MSA2000FC存储中有一组由7块盘组建的RAID5阵列,另外还有1块硬盘作为热备盘使用。
基于RAID5阵列划分的几个LUN分配给小机使用,存储空间通过LVM管理,重要数据为Oracle数据库及OA服务端。

服务器存储故障:
RAID5阵列中2块硬盘离线,唯一的热备盘成功激活,RAID5阵列还是变得不可用,上层LUN无法使用。

服务器存储数据恢复过程:
1、将故障存储中所有磁盘标记后取出,由硬件工程师对所有磁盘做物理故障检测,检测后没有发现有磁盘存在物理故障,都可以正常读取。以只读方式将所有磁盘进行扇区级全盘镜像,镜像过程中没有发现有磁盘存在坏道。
1.0副本.jpg

2、由于所有磁盘经过检测都不存在物理故障或者坏道,基本上可以判断磁盘掉线的是磁盘读写不稳定造成的。故障存储的控制器通常会将某些性能不稳定的磁盘识别为坏盘,并踢出RAID。而一旦RAID中掉线的盘数达到该RAID级别允许掉盘的极限,这个RAID将变得不可用,上层基于RAID的LUN也无法正常使用。
基于镜像文件分析所有磁盘底层数据,获取到重组raid所需信息(RAID级别,条带规则,条带大小,校验方向,META区域等)并找到热备盘和2块掉线硬盘的掉线顺序,然后根据这些信息重组RAID。
3、raid重组完成后分析LUN在RAID中的分配情况,以及LUN分配的数据块MAP,将每一个LUN的数据块分布MAP提取出来。北亚企安数据恢复工程师编写程序解析所有LUN的数据MAP,然后根据数据MAP导出所有LUN的数据。
2.0副本.jpg

4、分析所有LUN,发现所有LUN中均包含LVM逻辑卷信息。尝试解析每个LUN中的LVM信息,一共发现三套LVM:第一个LVM中划分了一个LV,存放OA服务器端的数据;第二个LVM中也划分了一个LV,里面存放临时备份数据;剩下几个LUN组成一个LVM,也划分了一个LV,里面存放Oracle数据库文件。北亚企安数据恢复工程师编写解释LVM的程序,将每套LVM中的LV卷都解释出来,但是解释过程中出现错误。
5、分析程序报错的原因,由开发工程师debug程序出错的位置。文件系统工程师检测恢复出来的LUN,检测LVM逻辑卷的信息是否损坏。经过检测,发现LVM信息确实因为存储瘫痪而损坏。尝试人工修复损坏的区域,并同步修改程序,然后重新解析LVM逻辑卷。
6、搭建环境,将解释出来的逻辑卷映射到小机,并尝试挂载文件系统,结果文件系统挂载出错。尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,修复后还是无法挂载。数据恢复工程师怀疑vxfs文件系统的元数据被破坏,需要修复。
7、分析解析出来的LV,根据VXFS文件系统的底层结构校验此文件系统的完整性。经过分析发现底层VXFS文件系统果然有问题,部分文件系统元文件损坏。人工修复这些损坏的元文件,保证VXFS文件系统能够正常解析。将修复好的逻辑卷挂载到小机上,并尝试挂载文件系统。这回没有报错,成功挂载。
8、在小机上挂载上文件系统后,将所有用户数据备份至指定空间。
3.0副本.jpg

9、使用Oracle数据库文件检测工具“dbv”检测每个数据库文件的完整性,没有发现错误。使用北亚企安自主开发的Oracle数据库检测工具检测,发现部分数据库文件和日志文件校验不一致。修复此类文件并再校验,直到所有文件校验均通过。
10、将恢复出来的Oracle数据库附加到原始生产环境的小机中,尝试启动Oracle数据库,Oracle数据库启动成功。
4.0副本.jpg

11、在用户方的配合下,启动Oracle数据库和OA服务端。在本地电脑上安装OA客户端,通过OA客户端验证最新的数据记录以及历史数据记录,并且安排不同部门工作人员进行远程验证。经过仔细验证,用户方确认数据完整可用,认可数据恢复结果。

相关文章
|
14天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
18天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
9天前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
|
14天前
|
人工智能 运维 双11
2024阿里云双十一云资源购买指南(纯客观,无广)
2024年双十一,阿里云推出多项重磅优惠,特别针对新迁入云的企业和初创公司提供丰厚补贴。其中,36元一年的轻量应用服务器、1.95元/小时的16核60GB A10卡以及1元购域名等产品尤为值得关注。这些产品不仅价格亲民,还提供了丰富的功能和服务,非常适合个人开发者、学生及中小企业快速上手和部署应用。
|
21天前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
4天前
|
云安全 存储 弹性计算
|
6天前
|
云安全 人工智能 自然语言处理
|
9天前
|
人工智能 自然语言处理 前端开发
用通义灵码,从 0 开始打造一个完整APP,无需编程经验就可以完成
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。本教程完全免费,而且为大家准备了 100 个降噪蓝牙耳机,送给前 100 个完成的粉丝。获奖的方式非常简单,只要你跟着教程完成第一课的内容就能获得。
|
25天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
3984 5
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
4天前
|
人工智能 C++ iOS开发
ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码
本文介绍在Apple M4 MacOS环境下搭建Ollama和qwen2.5-coder模型的过程。首先通过官网或Brew安装Ollama,然后下载qwen2.5-coder模型,可通过终端命令`ollama run qwen2.5-coder`启动模型进行测试。最后,在VS Code中安装Continue插件,并配置qwen2.5-coder模型用于代码开发辅助。
290 4