S5020 光纤存储FC硬盘故障数据恢复成功案方法和数据恢复过程

本文涉及的产品
函数计算FC,每月15万CU 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介:

本案例详细介绍了服务器存储数据库恢复的过程,包括RAID重组和数据库数据的修复与验证。

背景介绍:

S5020 光纤存储。存储上一共16块FC硬盘,单盘容量600G。存储前面板10号和13号硬盘亮故障灯,存储映射到redhat上的卷挂载不上,业务崩溃。

开始工作:

通过storage manager连接到存储查看当前存储状态,存储报告逻辑卷状态失败,再查看物理磁盘状态,发现6号盘报告“警告”,10号和13号盘报告“失败”,通过storage manager将当前存储的完整日志状态备份下来,解析备份出来的存储日志获得了关于逻辑卷结构的部分信息。
图一:
S5020 光纤存储FC硬盘故障数据恢复成功案方法和数据恢复过程
将16块FC盘粘贴标签,按照原始槽位号登记后从存储中移除,使用FC盘镜像设备“R510+SUN3510”对16块FC盘进行粗略测试,结果发现16块盘均能正常识别,分别检测16块盘的SMART状态,结果6号盘的SMART状态为“警告”状态和在IBM storage manager中报告一致。


在windows环境下首先将设备识别出来的FC盘在磁盘管理器中标记为脱机状态,从而为原始磁盘提供了一个写保护功能,然后使用软件对原始磁盘进行扇区级别镜像操作,将原始磁盘中的所有物理扇区镜像到逻辑磁盘并以文件形式保存。在镜像过程中发现6号磁盘的镜像速度很慢,结合先前对硬盘SMART状态检测时发现的问题综合判断,6号盘应该存在大量损坏以及不稳定扇区,导致一般应用软件无法对其进行操作。


使用坏道硬盘镜像设备对6号硬盘进行坏道镜像操作,在镜像过程中同时观察镜像的速度和稳定性,发现6号盘的坏道并不多,但是存在大量的读取响应时间长等不稳定扇区,于是调整6号盘的拷贝策略,将遇到坏道跳过扇区数和响应等待时间等参数均作一些修改。继续对6号盘进行镜像操作。同时观察剩余盘镜像的情况。


经过镜像操作后,磁盘已经全部镜像完成,查看日志,发现在storage manager和硬盘SMART状态中均没有报错的1号盘也存在坏道,10号和13号盘均存在大量不规律的坏道分布,根据坏道列表使用软件定位到目标镜像文件分析发现,ext3文件系统的一些关键源数据信息有的已经被坏道所破坏,只能等待6号盘镜像完毕后,通过同一条带进行xor以及根据文件系统上下文关系的方式手动修复被损坏的文件系统。


坏道镜像设备报告6号盘镜像完成,但是先前为了最大限度做出有效扇区以及为了保护磁头设置的拷贝策略会自动跳过一些不稳定扇区,所以现在的镜像是不完整的,于是调整拷贝策略,继续镜像被跳过的扇区,6号盘所有扇区全部镜像完毕。


得到了所有硬盘的物理扇区镜像,在平台下使用软件将所有镜像文件全部展开,根据我们对ext3文件系统的逆向以及日志文件的分析,得到了16块FC盘在存储中的盘序,RAID的块大小,RAID的校验走向和方式等信息,于是尝试通过软件的方式虚拟重组RAID,RAID搭建完成后进一步解析ext3文件系统,通过和用户沟通提取出了一些oracle的dmp文件,用户尝试进行恢复。


在dmp恢复的过程中,数据库报告为imp-0008错误,通过仔细分析导入dmp文件的日志文件,发现恢复的dmp文件存在问题而导致dmp导入数据失败。立刻重新分析raid结构,以及进一步确定ext3文件系统被破坏的程度,又经过数小时的工作,重新恢复dmp文件和dbf原始库文件,将恢复出来的dmp文件移交给用户进行数据导入测试,结果测试顺利没有发现问题,说明这次的数据恢复是成功的,接着对恢复出来的dbf原始库文件进行校验检测,所有文件均能通过测试。

数据库恢复流程

1.拷贝数据库文件到原数据库服务器,路径为/home/oracle/tmp/syntong.
作为备份。在根目录下创建了一个oradata文件夹,并把备份的整个syntong文件夹拷贝到oradata目录下。然后更改oradata文件夹及其所有文件的属组和权限。
2.备份原数据库环境,包括ORACLE_HOME下product文件夹下的相关文件。配置监听,使用原机中的splplus连接到数据库。尝试启动数据库到nomount状态。进行基本状态查询后,了解到环境和参数文件没有问题。 尝试启动数据库到mount状态,进行状态查询没有问题。启动数据库到open状态。出现报错:
图二:
S5020 光纤存储FC硬盘故障数据恢复成功案方法和数据恢复过程
3.经过进一步的检测和分析,判断此故障为控制文件和数据文件信息不一致,这是一类因断电或突然关机等引起的常见故障。
4.对数据库文件进行逐个检测,检测到所有数据文件没有物理损毁。
5.在mount状态下,对控制文件进行备份,alter database backup controlfile to trace as ' /backup/controlfile';对备份的控制文件进行查看修改,取得其中的重建控制文件命令。把这些命令复制到一个新建脚本文件controlfile.sql中。
6.关闭数据库,删除/oradata/syntong/下的3个控制文件。 启动数据库到nomount状态,执行controlfile.sql 脚本。
图三:
S5020 光纤存储FC硬盘故障数据恢复成功案方法和数据恢复过程
7.重建控制文件完成后,直接启动数据库,报错,需要进一步处理。
图四:
S5020 光纤存储FC硬盘故障数据恢复成功案方法和数据恢复过程
然后执行恢复命令:
图五:
S5020 光纤存储FC硬盘故障数据恢复成功案方法和数据恢复过程
做介质恢复,直到返回报告,恢复完成。
8.尝试open数据库。
SQL> alter database open resetlogs;
9.数据库启动成功。把原来temp表空间的数据文件加入到对应的temp表空间中。
10.对数据库进行各种常规检查,没有任何错误。

  1. 进行emp备份。全库备份完成,没有报错。将应用程序连接到数据库,进行应用层面的数据验证。
    数据验证结束,数据库修复完成,数据恢复成功。








本文转自 宋国建 51CTO博客,原文链接:http://blog.51cto.com/sun510/2054361,如需转载请自行联系原作者
相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
相关文章
|
存储 Serverless 云计算
函数计算FC存储和流量的费用比例,
函数计算FC存储和流量的费用比例, 有历史经验可以参考么?
84 2
|
存储 Serverless
可以在函数计算FC中使用这些挂载目录来存储和访问你的文件和数据
可以在函数计算FC中使用这些挂载目录来存储和访问你的文件和数据
85 1
|
存储 人工智能 Serverless
将Stable Diffusion模型文件转存到FC环境的NAS
本文将会指导你开通基于NAS的Stable Diffusion 函数计算FC环境,并且可以将SD模型库的模型转存下载到FC应用下的NAS存储空间
3469 2
将Stable Diffusion模型文件转存到FC环境的NAS
|
3天前
|
存储 Serverless 文件存储
AI 场景下,函数计算 GPU 实例模型存储最佳实践
当前,函数计算 FC 已被广泛应用在各种 AI 场景下,函数计算支持通过使用容器镜像部署 AI 推理应用,并且提供多种选项来访问训练好的模型。为了帮助开发者高效地在函数计算上部署 AI 推理应用,并快速解决不同场景下的模型存储选型问题,本文将对函数计算的 GPU 模型存储的优缺点及适用场景进行对比分析,以期为您的模型存储决策提供帮助。
|
5月前
|
消息中间件 存储 Serverless
函数计算产品使用问题之怎么访问网络附加存储(NAS)存储模型文件
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
5月前
|
运维 Kubernetes Serverless
Serverless Argo Workflows荣获信通院标杆实践案例,引领大规模离线任务处理新方法
阿里云容器服务Serverless Argo Workflows大规模离线计算工作流平台荣获2024信通院Serveless实践标杆案例。本文介绍其应用场景、平台特性以及领域实践。
|
5月前
|
运维 Serverless PyTorch
函数计算产品使用问题之ComfyUI除了通过WebUI页面进行,还有什么其他方法部署
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
6月前
|
存储 弹性计算 监控
函数计算产品使用问题之如何扩容存储
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
5月前
|
NoSQL Serverless 数据库连接
Serverless 架构实现弹幕场景问题之initializer方法在执行过程中遇到错误如何解决
Serverless 架构实现弹幕场景问题之initializer方法在执行过程中遇到错误如何解决
49 0
|
5月前
|
存储 Serverless API
Serverless 架构实现弹幕场景问题之在initializer方法中初始化数据库实例如何解决
Serverless 架构实现弹幕场景问题之在initializer方法中初始化数据库实例如何解决
39 0

热门文章

最新文章