服务器数据恢复—华为S5300存储Oracle数据库恢复案例

简介: 服务器存储数据恢复环境:华为S5300存储中有12块FC硬盘,其中11块硬盘作为数据盘组建了一组RAID5阵列,剩下的1块硬盘作为热备盘使用。基于RAID的LUN分配给linux操作系统使用,存放的数据主要是Oracle数据库。服务器存储故障:RAID5阵列中1块硬盘出现故障离线,热备盘自动激活开始同步数据,在同步数据的过程中又一块硬盘离线,RAID5阵列瘫痪,上层LUN无法使用。

服务器存储数据恢复环境:
华为S5300存储中有12块FC硬盘,其中11块硬盘作为数据盘组建了一组RAID5阵列,剩下的1块硬盘作为热备盘使用。基于RAID的LUN分配给linux操作系统使用,存放的数据主要是Oracle数据库。

服务器存储故障:
RAID5阵列中1块硬盘出现故障离线,热备盘自动激活开始同步数据,在同步数据的过程中又一块硬盘离线,RAID5阵列瘫痪,上层LUN无法使用。

服务器存储数据恢复过程:
1、将故障存储中所有磁盘做好标记后取出。硬件工程师对所有磁盘做物理故障检测,没有发现有硬盘存在硬件故障,都可以正常读取。将所有磁盘以只读方式进行扇区级全盘镜像,在镜像过程中没有发现有磁盘存在大量坏道。镜像完成后将所有磁盘按照原样还原到原存储中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。由于没有检测到有磁盘存在物理故障或者大量坏道,基本上可以判断某些硬盘离线的原因就是磁盘读写不稳定。故障存储raid控制器通常会将性能不稳定的磁盘识别为坏盘,并踢出RAID。一旦RAID中掉线的磁盘数据超过该RAID级别所允许掉盘的最大数量,该RAID将不可用,基于RAID的LUN也不可用。
2、基于镜像文件分析所有硬盘底层数据。分析底层RAID相关信息,根据分析获取到的raid信息重组RAID。RAID重建完成后,分析Oracle数据库页在每个磁盘中分布的情况。
3、由于RAID中有两块盘掉线且有一块硬盘数据被同步破坏。分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,初步判断此硬盘可能是被同步破坏的硬盘。通过北亚企安自主开发的RAID校验程序对这个条带做校验,确认该盘就是被同步损坏的盘。
4、分析LUN在RAID中的分配情况以及LUN分配的数据块MAP。将LUN的数据块MAP提取出来,北亚企安数据恢复工程师编写相应程序解析LUN的数据块MAP,然后根据数据块MAP导出LUN的数据。
5、由于是使用热备盘重组RAID,EXT3文件系统无法正常挂载,所以只能先提取oracle数据库文件,利用北亚企安自主开发的文件系统解析程序对其进行文件系统解析,导出oracle数据库文件。
6、使用Oracle数据库文件检测工具检测每个数据库文件的完整性,经过检测发现有错误。使用北亚企安自主研发的Oracle数据库检测工具检测。经过检测发现部分数据库文件和日志文件错误:system和sysaux表空间存在上百个坏块,3个控制文件存在大量坏块,eschoolspace表空间的3个文件中的坏块多达上千个,undotbs02.dbf丢失。北亚企安数据库工程师对这些损坏的文件进行修复。
1副本.jpg
2副本.jpg

7、创建控制文件和undo表空间,启动数据库到mount。system数据文件坏块导致数据库无法打开,各种隐含参数也不能绕过system的坏块。搭建数据库环境,使用dmp文件还原数据库,但是某个日期之后的数据导入报错,只能导入这个日期之前的数据。
3副本.jpg

由于故障发生后又对RAID进行了重建,导致一块盘的数据被同步破坏。在第二块盘离线之前,热备盘已经同步了一段时间,已经写入了部分数据,所以使用热备盘中的数据只能恢复某个日期之前的数据。
8、在用户方的配合下启动Oracle数据库。在本地虚拟机安装OA客户端,通过OA客户端对数据记录进行验证,并且安排不同部门人员进行远程验证。
9、经过用户方验证,确认恢复出来的数据有效,认可数据恢复结果。没有恢复出来的数据量比较少,可以通过其他方式人工补回来。

相关文章
|
5天前
|
存储 数据挖掘 数据库
服务器数据恢复—OceanStor存储数据恢复案例
华为OceanStor T系列某型号存储中有一组由24块机械硬盘组建的一组RAID5阵列。 运行过程中该存储设备RAID5阵列上多块硬盘出现故障离线,阵列失效,存储中数据无法访问。
|
2天前
|
运维 数据挖掘 Windows
服务器数据恢复—服务器硬盘指示灯亮黄灯的数据恢复案例
服务器硬盘指示灯闪烁黄灯是一种警示,意味着服务器硬盘出现故障即将下线。发现这种情况建议及时更换硬盘。 一旦服务器上有大量数据频繁读写,硬盘指示灯会快速闪烁。服务器上某个硬盘的指示灯只有黄灯亮着,而其他颜色的灯没有亮的话,通常表示这块硬盘出现故障,这时候更换新硬盘同步数据即可。 如果没有及时发现硬盘损坏或者更换硬盘失败导致服务器崩溃,应该如何恢复数据呢?下面通过一个真实案例讲解一下服务器硬盘指示灯亮黄色的数据恢复案例。
|
3天前
|
存储 数据挖掘
服务器数据恢复—zfs文件系统服务器数据恢复案例
一台配有32块硬盘的服务器在运行过程中突然崩溃不可用。经过初步检测,基本上确定服务器硬件不存在物理故障。管理员重启服务器后问题依旧。需要恢复该服务器中的数据。
|
11天前
|
运维 数据挖掘 索引
服务器数据恢复—Lustre分布式文件系统服务器数据恢复案例
5台节点服务器,每台节点服务器上有一组RAID5阵列。每组RAID5阵列上有6块硬盘(其中1块硬盘设置为热备盘,其他5块硬盘为数据盘)。上层系统环境为Lustre分布式文件系统。 机房天花板漏水导致这5台节点服务器进水,每台服务器都有至少2块硬盘出现故障。每台服务器中的RAID5阵列短时间内同时掉线2块或以上数量的硬盘,导致RAID崩溃,服务器中数据无法正常读取。
|
5天前
|
机器学习/深度学习 人工智能 PyTorch
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
|
4天前
|
存储 运维 安全
阿里云弹性裸金属服务器是什么?产品规格及适用场景介绍
阿里云服务器ECS包括众多产品,其中弹性裸金属服务器(ECS Bare Metal Server)是一种可弹性伸缩的高性能计算服务,计算性能与传统物理机无差别,具有安全物理隔离的特点。分钟级的交付周期将提供给您实时的业务响应能力,助力您的核心业务飞速成长。本文为大家详细介绍弹性裸金属服务器的特点、优势以及与云服务器的对比等内容。
|
12天前
|
人工智能 JSON Linux
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
|
2天前
|
弹性计算 安全 搜索推荐
阿里云国际站注册教程:阿里云服务器安全设置
阿里云国际站注册教程:阿里云服务器安全设置 在云计算领域,阿里云是一个备受推崇的品牌,因其强大的技术支持和优质的服务而受到众多用户的青睐。本文将为您介绍阿里云国际站的注册过程,并重点讲解如何进行阿里云服务器的安全设置。
|
2天前
|
人工智能 监控 测试技术
阿里云磐久服务器稳定性实践之路
阿里云服务器质量智能管理体系聚焦自研服务器硬件层面的极致优化,应对高并发交付、短稳定性周期、早问题发现和快修复四大挑战。通过“三个重构”(质量标准、开发流程、交付模式)、“六个归一”(架构、硬件、软件、测试、部件、制造)策略,实现芯片、整机和云同步发布,确保快速稳定上量。此外,全场景测试体系与智能预警、分析、修复系统协同工作,保障服务器在萌芽阶段发现问题并及时解决,提升整体质量水平。未来,阿里云将继续深化大数据驱动的质量管理,推动服务器行业硬件质量的持续进步。
|
11天前
|
开发框架 缓存 .NET
阿里云轻量应用服务器、经济型e、通用算力型u1实例怎么选?区别及选择参考
在阿里云目前的活动中,价格比较优惠的云服务器有轻量应用服务器2核2G3M带宽68元1年,经济型e实例2核2G3M带宽99元1年,通用算力型u1实例2核4G5M带宽199元1年,这几个云服务器是用户关注度最高的。有的新手用户由于是初次使用阿里云服务器,对于轻量应用服务器、经济型e、通用算力型u1实例的相关性能并不是很清楚,本文为大家做个简单的介绍和对比,以供参考。

推荐镜像

更多