服务器数据恢复—RAIDZ上层ZFS文件系统数据恢复案例

简介: 一台服务器有32块硬盘,采用Windows操作系统。服务器在正常运行的时候突然变得不可用。没有异常断电、进水、异常操作、机房不稳定等外部因素。服务器管理员重启服务器,但是服务器无法进入系统。管理员联系北亚企安数据恢复工程师要求恢复服务器数据。

服务器数据恢复环境&故障:
一台服务器有32块硬盘,采用Windows操作系统。
服务器在正常运行的时候突然变得不可用。没有异常断电、进水、异常操作、机房不稳定等外部因素。服务器管理员重启服务器,但是服务器无法进入系统。管理员联系北亚企安数据恢复工程师要求恢复服务器数据。

服务器数据恢复过程:
1、将故障服务器上所有硬盘做好标记后取出,经过硬件工程师检测后没有发现有硬盘存在硬件故障。将所有硬盘以只读方式进行扇区级完整镜像,镜像完成后将所有硬盘根据标记按照原样还原到原服务器中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
2、基于镜像文件分析所有磁盘底层数据,经过分析发现:故障服务器采用zfs文件系统。所有磁盘组建了几组RAIDZ。热备盘全部启用。
在服务器ZFS文件系统中,池被称为ZPOOL。ZPOOL的子设备可以有很多种类,包括块设备、文件、磁盘等等,本案例中就是三组RAIDZ作为子设备。
经过分析发现,三组RAIDZ中的两组RAIDZ分别启用1个和3个热备盘。热备盘启用后,第一组RAIDZ又有一块盘离线,第二组RAIDZ则有两块硬盘离线。
通过上述分析结果模拟故障:三组RAIDZ中的两组RAIDZ出现离线盘,热备盘自动上线替换。热备盘无冗余状态下,其中一组RAIDZ出现离线硬盘的RAIDZ又有一块盘离线,另外一组RAIDZ中又出现两块离线盘。ZPOOL进入高负荷状态;2块盘离线的RAIDZ中又有第三块盘离线,RAIDZ崩溃、ZPOOL下线、服务器崩溃。
3、重组ZPOOL,追踪数据入口。
ZFS对所有磁盘进行统一管理。在数据存储时,ZFS会为每次写入的数据分配适当大小的空间,并计算得到指向子设备的数据指针。这种精细化的管理方式使得ZFS能够更高效地利用磁盘空间,并且在数据存储和检索时更加灵活和智能。
当出现缺盘情况时,常规RAID和ZFS的处理方式也截然不同。常规RAID通常可以通过校验机制,利用剩余磁盘上的数据来恢复丢失的数据,因为它在存储时已经按照固定的规则分布了校验信息。
但对于ZFS管理的存储池,当RAIDZ(ZFS的一种RAID实现方式)缺盘时,无法直接进行校验得到数据。这是因为ZFS的存储特性使得数据和校验信息的分布更为复杂,必须将整个ZPOOL(ZFS存储池)作为一个整体进行解析,才能尝试恢复数据。这种方式虽然在缺盘恢复时相对复杂,但也保证了数据的完整性和一致性。
北亚企安数据恢复工程师手工截取事务块数据,编写程序获取最大事务号入口。
获取文件系统入口:
1副本.jpg

获取到文件系统入口后,北亚企安数据恢复工程师编写数据指针解析程序进行地址解析。
解析数据指针:
2副本.jpg

获取到文件系统入口点在各磁盘分布情况后,数据恢复工程师开始手工截取并分析文件系统内部结构。经过分析发现入口分布所在的磁盘组无缺失盘,可直接提取信息。根据ZFS文件系统的数据存储结构顺利找到映射的LUN名称,进而找到其节点。
4、经过分析发现此存储中的ZFS版本与开源版本有较大差别,无法使用原先开发的解析程序进行解析,所以数据恢复工程师重新编写数据提取程序。
3副本.jpg

由于磁盘组内缺盘个数较多,每个IO流都需要通过校验得到,提取进度极为缓慢。与用户方沟通后得知,此ZVOL卷映射到XenServer作为存储设备,用户方所需的文件在其中一个vhd内。提取ZVOL卷头部信息,按照XenStore卷存储结构进行分析,发现该vhd在整个卷的尾部,计算得到其起始位置后从此位置开始提取数据。
5、Vhd提取完成后,验证其内部的压缩包及图片、视频等文件,均可正常打开。
交由用户方验证数据,经过验证发现文件数量与系统自动记录的文件个数一致。验证文件可用性,文件全部可正常打开,服务器数据恢复工作完成。

相关文章
|
20天前
|
存储 运维 数据挖掘
服务器数据恢复—EqualLogic存储硬盘出现坏道的数据恢复案例
某品牌EqualLogic PS6100存储阵列上有一组由16块硬盘组建的raid5磁盘阵列。磁盘阵列上层划分多个大小不同的卷,存放虚拟机文件。 硬盘出现故障导致存储阵列不可用,需要恢复存储阵列中的数据。
|
27天前
|
存储 运维 Oracle
服务器数据恢复—存储硬盘指示灯亮黄灯,RAID5阵列崩溃的数据恢复案例
服务器存储数据恢复环境: 某单位一台某品牌DS5300存储,1个机头+4个扩展柜,50块的硬盘组建了两组RAID5阵列。一组raid5阵列有27块硬盘,存放Oracle数据库文件。存储系统上层一共划分了11个卷。 服务器存储故障: 存储设备上两个硬盘指示灯亮黄色。其中一组RAID5阵列崩溃,存储不可用,设备已经过保。
|
1月前
|
存储 SQL 关系型数据库
服务器数据恢复—raid崩溃导致同友存储无法启动的数据恢复
某单位同友存储,存储中有一组raid5磁盘阵列。存储内部共有虚拟机若干台,raid5阵列崩溃导致存储无法启动。
|
19天前
|
弹性计算 运维 安全
阿里云轻量应用服务器与云服务器ECS啥区别?新手帮助教程
阿里云轻量应用服务器适合个人开发者搭建博客、测试环境等低流量场景,操作简单、成本低;ECS适用于企业级高负载业务,功能强大、灵活可扩展。二者在性能、网络、镜像及运维管理上差异显著,用户应根据实际需求选择。
155 10
|
16天前
|
运维 安全 Ubuntu
阿里云渠道商:服务器操作系统怎么选?
阿里云提供丰富操作系统镜像,涵盖Windows与主流Linux发行版。选型需综合技术兼容性、运维成本、安全稳定等因素。推荐Alibaba Cloud Linux、Ubuntu等用于Web与容器场景,Windows Server支撑.NET应用。建议优先选用LTS版本并进行测试验证,通过标准化镜像管理提升部署效率与一致性。
|
21天前
|
弹性计算 ice
阿里云4核8g服务器多少钱一年?1个月和1小时价格,省钱购买方法分享
阿里云4核8G服务器价格因实例类型而异,经济型e实例约159元/月,计算型c9i约371元/月,按小时计费最低0.45元。实际购买享折扣,1年最高可省至1578元,附主流ECS实例及CPU型号参考。
246 8
|
17天前
|
存储 监控 安全
阿里云渠道商:云服务器价格有什么变动?
阿里云带宽与存储费用呈基础资源降价、增值服务差异化趋势。企业应结合业务特点,通过阶梯计价、智能分层、弹性带宽等策略优化成本,借助云监控与预算预警机制,实现高效、可控的云资源管理。
|
19天前
|
弹性计算 运维 安全
区别及选择指南:阿里云轻量应用服务器与ECS云服务器有什么区别?
阿里云轻量应用服务器适合个人开发者、学生搭建博客、测试环境,易用且性价比高;ECS功能更强大,适合企业级应用如大数据、高流量网站。根据需求选择:轻量入门首选,ECS专业之选。
126 2
|
27天前
|
弹性计算 ice
阿里云4核8G云服务器配置价格:热门ECS实例及CPU处理器型号说明
阿里云2025年4核8G服务器配置价格汇总,涵盖经济型e实例、计算型c9i等热门ECS实例,CPU含Intel Xeon及AMD EPYC系列,月费159元起,年付低至1578元,按小时计费0.45元起,实际购买享折扣优惠。
272 1
|
21天前
|
存储 弹性计算 安全
阿里云渠道商:新手如何选择阿里云ECS实例?
阿里云ECS凭借弹性扩展、稳定可靠与安全防护,助力企业高效上云。本文系统解析实例规格选择关键因素:业务场景匹配、性能评估、成本优化、地域部署与扩展规划,结合计费模式与实际需求,提供科学选型建议,助您精准匹配资源,提升云上效能。(238字)