服务器数据恢复—RAIDZ多块硬盘离线导致ZPOOL下线的数据恢复案例

简介: 某存储设备中一共有40块磁盘组建存储池,其中4块磁盘作为全局热备盘使用。存储池内划分出若干空间映射到服务器使用。服务器存储设备在没有断电、进水、异常操作、供电不稳定等外部因素的情况下突然崩溃。管理员重启服务器后无法进入操作系统,数据丢失。

服务器存储数据恢复环境&故障:
某存储设备中一共有40块磁盘组建存储池,其中4块磁盘作为全局热备盘使用。存储池内划分出若干空间映射到服务器使用。
服务器存储设备在没有断电、进水、异常操作、供电不稳定等外部因素的情况下突然崩溃。管理员重启服务器后无法进入操作系统,数据丢失。

服务器存储数据恢复过程:

1、将故障存储中所有硬盘做好标记后取出,以只读方式进行完整硬盘镜像。镜像完后把所有磁盘按照编号还原到原存储设备中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
2、基于镜像文件分析所有磁盘的底层数据,北亚企安数据恢复工程师发现所有磁盘是通过ZFS进行管理,磁盘内记录系统元信息的NVLIST较为混乱。需要恢复数据的磁盘分为三组,每组12块;单个组使用ZFS特有的RAIDZ管理所有磁盘;RAIDZ级别为2,即每个组内可缺失磁盘个数最大为2;全局热备盘全部启用。
Tips:在ZFS文件系统中,池被称为ZPOOL。ZPOOL的子设备可以有很多种类:块设备、文件、磁盘等。本案例中的子设备为三组RAIDZ。
经过分析发现,三组RAIDZ中的两组RAIDZ启用热备盘个数分别为1和3。启用热备盘后,第一组RAIDZ又有一块离线盘,第二组RAIDZ内则又有两块盘离线。
故障模拟:三组RAIDZ内第一和二组RAIDZ中有磁盘离线,热备盘自动上线进行替换;热备盘无冗余情况下第一组RAIDZ中有一块盘离线,第二组RAIDZ中有两块盘离线,ZPOOL进入高负荷状态(每次读取数据都需要进行校验得到正确数据);由于第二组RAIDZ内有三块盘离线,该组RAIDZ崩溃、ZPOOL下线、服务崩溃。
3、ZFS管理的存储池与常规存储不同。ZFS管理的存储池中所有磁盘都由ZFS进行管理。常规RAID在存储数据时,只按照特定的规则组建池,不关心文件在子设备上的位置;而ZFS在存储数据时会为每次写入的数据分配适当大小的空间,并通过计算得到指向子设备的数据指针。这种特性决定了RAIDZ缺盘时无法直接通过校验得到数据,必须将整个ZPOOL作为一个整体进行解析。
北亚企安数据恢复工程师手工截取事务块数据,并编写程序获取最大事务号入口。
01.jpg

4、获取到文件系统入口后,北亚企安数据恢复工程师编写数据指针解析程序进行地址解析。
02.jpg

5、获取到文件系统入口点在各磁盘分布情况后,北亚企安数据恢复工程师手工截取并分析文件系统内部结构。入口分布所在的磁盘组无缺失盘,可直接提取信息。数据恢复工程师根据ZFS文件系统的数据存储结构找到映射的LUN名称,从而找到其节点。
6、经过分析,数据恢复工程师发现在此存储中的ZFS版本与开源版本有较大差别,无法使用以前开发的解析程序解析,所以北亚企安数据恢复工程师重新编写了数据提取程序提取数据。
03.jpg

由于磁盘组内缺盘个数较多,每个IO流都需要通过校验得到,提取进度极为缓慢。与用户方沟通后得知,此ZVOL卷映射到XenServer作为存储设备,需要恢复的文件在其中一个vhd内。提取ZVOL卷头部信息,按照XenStore卷存储结构进行分析,发现该vhd在整个卷的尾部,计算得到其起始位置后从此位置开始提取数据。
7、Vhd提取完毕后,验证其内部的压缩包及图片、视频等文件,均可正常打开。
8、用户方验证数据后,确定恢复出来的文件数量与系统自动记录的文件个数基本一致,文件全部可正常打开。本次数据恢复工作完成。

相关文章
|
6天前
|
存储 运维 数据挖掘
【服务器数据恢复】EVA存储硬盘离线,LUN丢失的数据恢复案例
一台EVA存储设备中有两块硬盘掉线,lun丢失。 将故障EVA存储设备上的所有硬盘编号后取出。硬件工程师对所有硬盘进行硬件故障检测。检测后发现掉线硬盘不存在物理故障和坏道。将所有硬盘以只读方式做全盘镜像备份,镜像完成后将所有磁盘按照编号还原到原EVA存储设备中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
|
13天前
|
运维
服务器数据恢复—服务器常见故障&服务器数据恢复常规流程揭秘
服务器数据恢复到底是一个什么样的流程? 服务器数据丢失后,进行数据恢复前应该做哪些准备? 服务器出现故障后应该如何操作才能避免数据被二次破坏?
|
1月前
|
人工智能 运维 Serverless
一杯咖啡成本搞定多模态微调:FC DevPod + Llama-Factory 极速实战
告别显存不足、环境配置难、成本高昂的微调困境!基于阿里云函数计算FC与Llama-Factory,5分钟搭建微调流水线,一键完成多模态模型的微调。
298 20
|
1月前
|
人工智能 移动开发 自然语言处理
数字人公司哪家好?头部数字人企业厂商核心竞争力解析
世优科技推出“世优波塔AI数字人智能体”,融合高拟真建模、多模态交互与全终端部署,已在政务、文旅、教育、医疗等领域实现规模化落地。凭借180+面部控制点、99.5%口型同步精度及1.5-2秒极速响应,打造自然交互体验。支持SaaS、私有化等多元交付,服务超千家客户,入选“第五届数字人场景应用典型案例”,助力数字人从技术走向产业实用。
135 1
|
1月前
|
并行计算 算法 Linux
毅硕HPC | 一文详解HPC环境中的MPI并行计算
MPI主要用于分布式内存系统,适合跨多个服务器节点的大规模并行任务。MPI 不仅仅是一种编程接口,它是连接算法与硬件之间的桥梁,是实现“算得更快、看得更远”的关键技术支撑。
185 0
毅硕HPC | 一文详解HPC环境中的MPI并行计算
|
28天前
|
移动开发 安全 API
阿里云最新域名注册续费收费标准,域名优惠口令及口令使用教程
目前阿里云的.com英文域名的注册价格由原来的83元涨价到了85元,续费价格也涨到了95元,不过阿里云为用户提供了多种域名活动,例如域名批量注册优惠,新用户首次注册优惠,以及域名续费优惠口令等,不管是新用户还是老用户,在注册、续费域名的时候,都可以使用域名优惠口令享受一定金额的减免优惠,本文为大家整理了截止目前最新的域名注册续费和转入收费价格表,以及阿里云最新域名优惠口令及口令使用教程。
999 0
|
1月前
|
人工智能 JSON 移动开发
AI 试衣服从“娱乐玩具”到真正可商用的能力进化
玩美移动AI Clothes技术专攻商业级虚拟试衣,突破通用大模型局限,实现服装结构精准还原、多体型真实适配、只换衣不换人。支持电商、APP快速集成,推动AI试衣从娱乐走向高转化零售应用。
341 0
|
2月前
|
运维 数据安全/隐私保护 内存技术
NVMe 盘故障排查 5 步速查
通过系统日志、NVMe健康状态、错误日志及Pangu集群摘要等多维度诊断NVMe盘故障,判断是否持续报错、介质损坏或文件系统异常,结合硬件与集群状态精准定位问题,指导及时换盘或观察处理。
149 0
|
存储 Serverless API
通过图片视觉理解,结构化提取属性信息测评报告
本文详细评测了阿里云的图片信息提取解决方案,涵盖部署、功能测试、性能表现及安全性考量等方面。该方案结合函数计算、对象存储与百炼模型服务,提供高效、准确的图像处理能力,适合快速搭建图像处理应用。
524 12