【服务器数据恢复】raid5多块硬盘离线导致昆腾存储崩溃的数据恢复案例

本文涉及的产品
云服务器 ECS,每月免费额度280元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 10个磁盘柜,每个磁盘柜配24块硬盘。9个磁盘柜用于存储数据,1个磁盘柜用于存储元数据。元数据存储中24块硬盘,组建了9组RAID1阵列+1组RAID10阵列,4个全局热备硬盘。数据存储中,组建了36组6硬RAID5,36组RAID5阵列划分为2个存储系统。其中1个存储系统中的一组RAID5中有2块硬盘先后出现故障离线,RAID5阵列不可用,存储系统崩溃。

服务器数据恢复环境&故障:
10个磁盘柜,每个磁盘柜配24块硬盘。9个磁盘柜用于存储数据,1个磁盘柜用于存储元数据。
元数据存储中24块硬盘,组建了9组RAID1阵列+1组RAID10阵列,4个全局热备硬盘。
数据存储中,组建了36组6硬RAID5,36组RAID5阵列划分为2个存储系统。其中1个存储系统中的一组RAID5中有2块硬盘先后出现故障离线,RAID5阵列不可用,存储系统崩溃。
存储及文件系统架构:
01副本.jpg
注:Meta_LUN(元数据卷) Data_LUN(用户数据卷)

服务器数据恢复过程:
1、将故障RAID5中的6块盘编号标记后从磁盘柜中取出。经过硬件工程师检测,所有磁盘都可以正常读取。以只读方式对6块硬盘进行扇区级全盘镜像。对磁盘柜中没有出现故障的RAID阵列进行存储层面的备份。
备份示意图:
02副本.jpg

在镜像过程中发现故障RAID5阵列中的1块故障离线硬盘存在大量的坏道区域,无法继续备份。在用户方的授权下,将故障盘进行开盘更换固件并使用专业工具进行修复,修复完成后该硬盘可以继续备份,但坏道仍然存在。
部分镜像文件:
03副本.jpg

2、基于镜像文件对故障RAID5阵列所有磁盘中的底层数据进行分析,获取到重组RAID需要的相关信息,利用获取到的RAID信息虚拟重组RAID阵列,并将该RAID阵列中的LUN恢复成镜像文件。在分析过程中发现,存在大量坏道的硬盘为后离线的硬盘。
3、登陆昆腾存储的管理界面,读取StorNext文件系统中与卷相关的信息。
04副本.jpg

4、分析StorNext文件系统中的Meta卷和Data卷。每一个完整的Data卷都是由多组RAID中的LUN组成的,通过分析这些LUN获取到LUN之间组合的算法规律,虚拟重组出完整的Data卷。
05副本.jpg

5、分析Meta卷,分析Meta卷中的节点信息、目录项信息、Meta卷和Data卷之间的对应关系。针对一个Meta卷管理多个Data卷的情况,研究Meta卷到Data卷的索引算法。
文件节点:
06副本.jpg

目录块:
07副本.jpg

6、通过分析研究获取到了恢复数据所需要的全部信息,北亚企安数据恢复工程师编写程序扫描Meta卷中的节点信息和目录项信息,同时通过对目录项和节点解析获取到完整的文件系统目录结构。解析每一个节点中的指针信息,将这些信息记录在数据库中。
文件信息:
08副本.jpg

7、北亚企安数据恢复工程师编写文件提取程序读取数据库,根据解析出来的信息以及两个Data卷之间的聚合算法提取数据。
8、对提取出来的数据进行随机抽样检测,没有发现问题。将全部文件提取到本地,由用户方进行检测。经过仔细检测后,用户方认可数据恢复结果。本次数据恢复工作完成。

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
26天前
|
存储 机器学习/深度学习 弹性计算
ecs实例规格存储和I/O需求
阿里云ECS提供多种实例类型满足不同需求:通用型适合中小型应用;计算型强调CPU性能,适合大数据分析;存储型针对高I/O场景,如数据库;内存型适合内存敏感应用;GPU型用于GPU加速任务;异构计算型包含FPGA、ASIC。实例搭配不同性能的云盘(如ESSD)以调整IOPS和吞吐量。选择实例时,需综合考虑应用对计算、内存和存储I/O的需求。
15 1
|
29天前
|
存储 运维 安全
服务器数据恢复—存储互斥不当导致VMFS卷损坏的数据恢复案例
某公司的信息管理平台,通过3台虚拟机共享了一台存储设备供企业内部使用,存储设备中存放了公司内部重要的数据文件。 由于业务增长的需要,管理员又在这个存储网络上连接了一台Windows server服务器,结果这台存储变得不可用了。 管理员对该存储进行故障排查时发现存储中虚拟磁盘丢失,分区表丢失。重启该存储设备后故障依旧。 由于存储中的数据十分重要,没有备份。管理员为了安全起见,联系北亚企安数据恢复中心寻求帮助。 经过硬件工程师的检测,没有发现存储存在硬件故障。存储中的硬盘经过硬件工程师的检测后也没有发现任何物理故障,都可以正常读取。基本上可以排除故障是由于硬件导致的。
|
1月前
|
数据挖掘
服务器数据恢复—服务器硬盘掉线,指示灯显示红色的数据恢复案例
一台服务器中有一组由多块硬盘组建的raid阵列,在运行过程中服务器突然崩溃,管理员检查服务器发现该服务器raid阵列中有两块硬盘的指示灯显示红色。于是,管理员重启服务器,服务器重启后,先离线的硬盘上线并开始自动同步数据,数据同步过程中管理员又将服务器强制关机。
服务器数据恢复—服务器硬盘掉线,指示灯显示红色的数据恢复案例
|
1月前
|
存储 Windows
windows server 2019 云服务器看不见硬盘的解决方案
windows server 2019 云服务器看不见硬盘的解决方案
|
22天前
|
Ubuntu JavaScript 关系型数据库
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
在阿里云Ubuntu 20.04服务器上部署Ghost博客的步骤包括创建新用户、安装Nginx、MySQL和Node.js 18.x。首先,通过`adduser`命令创建非root用户,然后安装Nginx和MySQL。接着,设置Node.js环境,下载Nodesource GPG密钥并安装Node.js 18.x。之后,使用`npm`安装Ghost-CLI,创建Ghost安装目录并进行安装。配置过程中需提供博客URL、数据库连接信息等。最后,测试访问前台首页和后台管理页面。确保DNS设置正确,并根据提示完成Ghost博客的配置。
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
|
25天前
|
存储 弹性计算 数据可视化
要将ECS中的文件直接传输到阿里云网盘与相册(
【2月更文挑战第31天】要将ECS中的文件直接传输到阿里云网盘与相册(
411 4
|
27天前
|
SQL 弹性计算 安全
购买阿里云活动内云服务器之后设置密码、安全组、增加带宽、挂载云盘教程
当我们通过阿里云的活动购买完云服务器之后,并不是立马就能使用了,还需要我们设置云服务器密码,配置安全组等基本操作之后才能使用,有的用户还需要购买并挂载数据盘到云服务器上,很多新手用户由于是初次使用阿里云服务器,因此并不知道这些设置的操作流程,下面给大家介绍下这些设置的具体操作流程。
购买阿里云活动内云服务器之后设置密码、安全组、增加带宽、挂载云盘教程
|
11天前
|
弹性计算
阿里云ECS使用体验
在申请高校学生免费体验阿里云ECS云服务器后的一些使用体验和感受。
|
28天前
|
弹性计算
阿里云3M带宽云服务器并发多大?阿里云3M带宽云服务器测评参考
在探讨云服务器3M带宽能支持多大并发这一问题时,我们首先要明白一个关键点:并发量并非仅由带宽决定,还与网站本身的大小密切相关。一般来说,一个优化良好的普通网站页面大小可能只有几K,为便于计算,我们可以暂且假定每个页面大小为50K。
793 1
|
4天前
|
弹性计算 应用服务中间件 Linux
阿里云ECS服务器上从零开始搭建nginx服务器
阿里云ECS服务器上从零开始搭建nginx服务器

相关产品

  • 云服务器 ECS