服务器数据恢复—光纤存储上oracle数据库数据恢复案例

本文涉及的产品
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
简介: 一台光纤服务器存储上有16块FC硬盘,上层部署了Oracle数据库。服务器存储前面板2个硬盘指示灯显示异常,存储映射到linux操作系统上的卷挂载不上,业务中断。通过storage manager查看存储状态,发现逻辑卷状态失败。再查看物理磁盘状态,发现其中一块盘报告“警告”,硬盘指示灯显示异常的2块盘报告“失败”。将当前存储的完整日志状态备份下来,解析备份出来的存储日志并获得了关于逻辑卷结构的部分信息。

服务器存储数据恢复环境&故障:
一台光纤服务器存储上有16块FC硬盘,上层部署了Oracle数据库。服务器存储前面板2个硬盘指示灯显示异常,存储映射到linux操作系统上的卷挂载不上,业务中断。
通过storage manager查看存储状态,发现逻辑卷状态失败。再查看物理磁盘状态,发现其中一块盘报告“警告”,硬盘指示灯显示异常的2块盘报告“失败”。
将当前存储的完整日志状态备份下来,解析备份出来的存储日志并获得了关于逻辑卷结构的部分信息。
将16块硬盘做好标记后从存储中移除,对16块FC盘进行测试发现16块盘均能正常识别。检测16块盘的SMART状态,结果和在storage manager中的报告一致。

服务器存储数据恢复过程:
1、以只读方式将所有磁盘进行扇区级别镜像操作。在镜像过程中发现其中一块磁盘的镜像速度很慢,结合先前检测结果综合判断,该盘应该存在大量损坏以及不稳定扇区。对该硬盘进行坏道镜像操作,在镜像过程中同时观察镜像的速度和稳定性,发现该盘的坏道并不多,但是存在大量的读取响应时间长的不稳定扇区。调整拷贝策略后继续对该盘进行镜像,同时观察剩余盘镜像的情况。
2、镜像完成后查看日志,发现在storage manager和硬盘SMART状态均没有报错的一块也存在坏道,硬盘指示灯显示异常的2块盘均存在大量不规律的坏道分布。
ext3文件系统部分关键源数据信息被坏道破坏,只能等待所有磁盘镜像完毕后,通过同一条带进行xor以及根据文件系统上下文关系的方式手动修复被损坏的文件系统。
3、虽然镜像速度很慢的那块盘镜像完成,但是拷贝策略导致现在的镜像是不完整的,调整拷贝策略,继续镜像被跳过的扇区,直到该盘所有扇区全部镜像完毕。
4、所有硬盘镜像完成后,将所有硬盘按照标记还原到原存储中,后续的数据分析和数据恢复操作都基于镜像文件进行。避免后续操作对原始磁盘数据造成二次破坏。将所有镜像文件全部发开,根据对ext3文件系统的逆向以及日志文件的分析,获取到16块FC盘在存储中的盘序,RAID的块大小,RAID的校验走向和方式等信息。利用这些信息虚拟重组RAID,RAID搭建完成后进一步解析ext3文件系统。和用户方沟通后提取出了一些oracle的dmp文件,尝试进行恢复。
5、在通过dmp文件恢复数据的过程中,数据库报告imp-0008错误。北亚企安数据恢复工程师分析导入dmp文件的日志文件后,发现恢复的dmp文件存在问题。
6、重新分析raid结构,进一步确定ext3文件系统被破坏的程度。重新恢复dmp文件和dbf原始库文件,将恢复出来的dmp文件移交给用户进行数据导入测试,测试结果顺利且没有发现问题。对恢复出来的dbf原始库文件进行校验检测,所有文件均能通过测试。

oracle数据库恢复过程:
1、拷贝数据库文件到原数据库服务器上的一个文件夹中作为备份。在根目录下创建了一个oradata文件夹,并把备份的整个文件夹拷贝到oradata目录下。更改oradata文件夹及其所有文件的属组和权限。
2、备份原数据库环境,包括ORACLE_HOME下product文件夹下的相关文件。
配置监听,使用splplus连接到数据库。尝试启动数据库到nomount状态。进行基本状态查询后,了解到环境和参数文件没有问题。 尝试启动数据库到mount状态,进行状态查询没有问题。启动数据库到open状态时出现报错。
1.png

3、经过进一步的检测和分析,北亚企安数据恢复工程师判断此故障为控制文件和数据文件信息不一致导致,这是一类因断电或突然关机导致的故障。
4、对数据库文件进行逐个检测,发现所有数据文件没有物理损坏。
5、在mount状态下,对控制文件进行备份;对备份的控制文件进行查看修改,取得其中的重建控制文件命令。把这些命令复制到一个新建脚本文件controlfile.sql中。
6、关闭数据库,删除备份文件夹下的3个控制文件。 启动数据库到nomount状态,执行controlfile.sql 脚本。
2.png

7、重建控制文件完成后直接启动数据库,仍然报错,需要进一步处理。
3.png

执行恢复命令做介质恢复,直到返回报告,恢复完成。
4.png

8、尝试open数据库,数据库启动成功。把原来temp表空间的数据文件加入到对应的temp表空间中。
9、对数据库进行各种常规检查,没有发现任何错误。
10、进行emp备份。全库备份完成,没有报错。将应用程序连接到数据库,进行应用层面的数据验证。
11、数据验证过程没有发现任何问题,数据库修复完成。本次数据恢复工作完成。

相关文章
|
10月前
|
存储 Oracle 关系型数据库
oracle数据恢复—oracle数据库执行错误truncate命令的数据恢复案例
oracle数据库误执行truncate命令导致数据丢失是一种常见情况。通常情况下,oracle数据库误操作删除数据只需要通过备份恢复数据即可。也会碰到一些特殊情况,例如数据库备份无法使用或者还原报错等。下面和大家分享一例oracle数据库误执行truncate命令导致数据丢失的数据库数据恢复过程。
|
12月前
|
SQL 存储 分布式数据库
分布式存储数据恢复—hbase和hive数据库数据恢复案例
分布式存储数据恢复环境: 16台某品牌R730xd服务器节点,每台服务器节点上有数台虚拟机。 虚拟机上部署Hbase和Hive数据库。 分布式存储故障: 数据库底层文件被误删除,数据库不能使用。要求恢复hbase和hive数据库。
446 12
RMAN备份及恢复归档日志的语法
RMAN备份及恢复归档日志的语法
1563 0
|
存储 运维 监控
数据库服务器运维最佳实践
【8月更文挑战第22天】
489 2
数据库服务器运维最佳实践
|
Oracle 关系型数据库 数据库
Oracle 数据库表中截取 两个 | 之间的内容,substr() instr()
Oracle 数据库表中截取 两个 | 之间的内容,substr() instr()
|
网络架构
深度好文:什么是超网 Supernetting?
超网一般用于路由聚合,将具有相似网络前缀的多个网络的路由组合成一个路由条目,该路由条目指向一个超级网络,包含所有网络。这样的优点就是显着减小了路由表的大小以及路由协议交换的路由更新的大小。
1693 0
深度好文:什么是超网 Supernetting?
|
10月前
|
关系型数据库 分布式数据库 数据库
再获殊荣,阿里云PolarDB数据库蝉联SIGMOD最佳论文奖
内存池化技术新突破,阿里云PolarDB蝉联SIGMOD最佳论文奖
|
4月前
|
运维 监控 Shell
【自动化运维】告别手动搬运!编写Shell脚本自动备份与清理日志
本文介绍如何通过Shell脚本结合Crontab,实现服务器日志的自动备份与清理。每天凌晨2点自动压缩昨日日志并保存至备份目录,同时删除7天前的旧备份,防止磁盘占满。脚本具备目录创建、压缩打包、错误提示和日志记录功能,操作安全可靠,适合Linux运维新手实践自动化管理。