vSAN数据恢复-开启重删压缩机制的全闪存vSAN数据恢复案例

本文涉及的产品
性能测试 PTS,5000VUM额度
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
可观测监控 Prometheus 版,每月50GB免费额度
简介: vsan数据恢复环境:一套VMware vSAN超融合基础架构,全闪存,开启压缩重删。共11台服务器节点。每台服务器节点上配置1块PCIE固态硬盘和8-10块SSD固态硬盘。每个服务器节点上创建1个磁盘组,每个磁盘组将1个PCIE固态硬盘识别为2个硬盘作为缓存盘,将8-10个SSD固态硬盘作为容量盘,共同组成vSAN存储空间,用来存储虚拟机文件。vsan故障&检测:vSAN中一台服务器节点的PCIE缓存盘发生故障,导致vSAN逻辑架构出现故障,2台虚拟机磁盘组件出现问题,虚拟机无法正常使用。

vsan数据恢复环境:
一套VMware vSAN超融合基础架构,全闪存,开启压缩重删。共11台服务器节点。每台服务器节点上配置1块PCIE固态硬盘和8-10块SSD固态硬盘。
每个服务器节点上创建1个磁盘组,每个磁盘组将1个PCIE固态硬盘识别为2个硬盘作为缓存盘,将8-10个SSD固态硬盘作为容量盘,共同组成vSAN存储空间,用来存储虚拟机文件。

vsan故障&检测:
vSAN中一台服务器节点的PCIE缓存盘发生故障,导致vSAN逻辑架构出现故障,2台虚拟机磁盘组件出现问题,虚拟机无法正常使用。
将11台节点服务器中的所有磁盘编号后取出,以只读方式做全盘镜像备份,备份完成后将磁盘按照编号还原到原节点服务器中,后续的数据分析和数据恢复操作都基于镜像文件,避免对原始磁盘数据造成二次破坏。
扫描&分析全部镜像文件,发现由于版本更新和开启了压缩重删机制,底层结构差异较大。
针对这种情况的数据恢复,难点在于压缩和重删的算法,因为需要大量数据碰撞测试和大量代码来测试压缩和重删算法。

vsan数据恢复过程:
1、基于镜像文件分析底层数据。根据底层记录的磁盘ID等信息,将节点、磁盘组、缓存盘、容量盘等信息及对应关系进行整理记录。
2、尝试在底层搜索&分析组件信息,结果发现组件信息被压缩,无法进行分析。
3、测试压缩和重删。因该vSAN集群开启了压缩重删机制,底层数据结构发生很大的变化。北亚企安数据恢复工程师搭建相同版本的环境,在搭建好的环境中通过大量数据碰撞测试来研究压缩重删的算法和存储结构。
4、通过大量数据碰撞测试研究压缩重删算法,因为不确定该vSAN集群的采用了何种压缩算法,所以北亚企安数据恢复工程师只能通过大量规律数据进行逆向推理确定其压缩算法,然后解压缩。
压缩块:
01副本.jpg

解压后:
02副本.jpg

5、解析重删位图。通过大量数据测试确定压缩位图位置、记录方式、位图索引块大小等,从而获取位图索引方式,解析重删位图。
03副本.jpg

6、因为VSAN中所有文件都是以对象的方式存在,每个对象会被分割为多个组件。北亚企安数据恢复工程师编写程序扫描组件信息,根据组件中的runlist找到每个数据块和该块在组件的逻辑位置,然后编写程序提取完整组件。
04副本.jpg
05副本.jpg

7、根据组件信息中的描述信息将组件按照描述信息中记录的RAID级别和各个组件在对象中的逻辑位置进行组合,拼接出完整的对象,即完整的vmdk文件。因为每个组件可能会有部分数据留在缓存盘上,并没有写入到容量盘中,所以北亚企安数据恢复工程师编写程序将缓存盘上的数据刷新到对应的组件或对象中。
06副本.jpg
07副本.jpg

8、因为本案例中虚拟磁盘使用Windows下DFS分布式文件系统并且开启重删机制,无法直接提取数据。新建DFS环境,将合并完成的虚拟磁盘挂载到该环境下,挂载后可直接访问数据。
08副本.jpg
09副本.jpg

9、由用户方对数据进行检测,经过检测确认恢复出来的数据完整可用。本次数据恢复工作完成。

相关文章
|
6月前
|
存储 SQL 关系型数据库
服务器数据恢复—同友存储中raid5阵列上层虚拟机数据恢复案例
某单位同友存储,存储设备中若干磁盘组建了raid5磁盘阵列。未知原因导致存储设备崩溃无法启动,raid5阵列上层的虚拟机全部丢失,其中存放了重要数据的3台虚拟机需要恢复。
服务器数据恢复—同友存储中raid5阵列上层虚拟机数据恢复案例
|
1月前
|
存储
服务器数据恢复—EMC存储RAID5阵列崩溃的数据恢复案例
服务器数据恢复环境: 一台EMC某型号存储设备,该存储中有一组由12块(包括2块热备盘)STAT硬盘组建的raid5阵列。 服务器故障: 该存储在运行过程中突然崩溃,raid瘫痪。数据恢复工程师到达现场对故障存储设备进行初检,发现raid中有两块硬盘掉线但只有一块热备盘成功激活,所以导致阵列瘫痪,上层lun无法使用。
|
18天前
|
存储 Oracle 关系型数据库
服务器数据恢复—EVA存储硬盘读写性能不稳定掉线的数据恢复案例
服务器存储数据恢复环境: 一台EVA某型号控制器+EVA扩展柜+FC磁盘。 服务器存储故障&检测: 磁盘故障导致该EVA存储中LUN不可用,导致上层应用无法正常使用。
84 47
|
5天前
|
Oracle 关系型数据库 Linux
服务器数据恢复—RAID5阵列热备盘未成功激活导致阵列崩溃的数据恢复案例
服务器数据恢复环境: 某品牌X3850服务器中有一组由数块SAS硬盘组建的RAID5阵列,该阵列中有一块盘是热备盘。操作系统为linux redhat,上面跑着一个基于oracle数据库的oa。 服务器故障: 服务器raid5阵列中有一块硬盘离线,但是热备盘没有成功激活,之后另外一块硬盘离线,RAID崩溃。
|
3月前
|
存储 内存技术
【RAID磁盘阵列服务器数据恢复】华为OceanStor Dorado存储系统RAID-TP数据丢失数据恢复案例
客户报告其华为OceanStor Dorado存储系统的RAID-TP出现故障,导致数据丢失。RAID-TP是一种增强型RAID级别,包含数据磁盘、校验磁盘和转换磁盘,可在两个磁盘故障时仍保护数据。通过分析RAID结构与工作原理,我们制定了恢复方案:首先从校验磁盘读取信息并计算出丢失的数据块,接着将恢复的数据写入新磁盘。由于缺乏现成工具,需定制RAID重组程序以恢复数据。华为的动态RAID重构技术保证了重构过程中冗余级别的稳定。
54 1
|
3月前
|
存储 运维 数据挖掘
服务器数据恢复—raid5阵列2块硬盘离线,热备盘未全部启用的数据恢复案例
服务器存储数据恢复环境: 一台EMC某型号存储中有一组RAID5磁盘阵列。该raid5阵列中有12块硬盘,其中2块硬盘为热备盘。 服务器存储故障: 该存储raid5阵列中有两块硬盘离线,只有1块热备盘启用替换掉其中一块离线盘,另外1块热备盘未成功启用,raid5阵列崩溃,存储不可用。 磁盘阵列中硬盘离线的原因通常是磁盘存在物理故障或者硬盘出现坏道。由于EMC存储中的raid控制器的磁盘检查策略十分严格,经常将硬盘的性能不稳定判定为硬件故障并将该硬盘踢出raid。很多情况下EMC存储中raid崩溃的原因就是磁盘读写不稳定。
服务器数据恢复—raid5阵列2块硬盘离线,热备盘未全部启用的数据恢复案例
|
3月前
|
存储 安全 数据安全/隐私保护
服务器数据恢复—服务器raid常见故障的数据恢复方案
磁盘阵列(raid)是一种将多块物理硬盘整合成一个虚拟存储的技术。raid模块相当于一个存储管理中间层,上层接收并执行操作系统及文件系统的数据读写指令,下层管理数据在各个物理硬盘上的存储及读写。相对于单独的物理硬盘,raid可以为用户提供更大的独立存储空间,更快的读写速度,更高的数据存储安全及更方便的统一管理模式。磁盘阵列的正常运行是保障服务器中数据正常读写的关键。
服务器数据恢复—服务器raid常见故障的数据恢复方案
|
5月前
|
数据挖掘 数据库
服务器数据恢复—服务器raid磁盘故障离线导致阵列瘫痪的数据恢复案例
服务器数据恢复环境: 一台某品牌DL380服务器中3块SAS硬盘组建了一组raid。 服务器故障: RAID中多块磁盘出现故障离线导致RAID瘫痪,其中一块硬盘状态指示灯显示红色。服务器上运行的数据库在D分区,备份文件存放在E分区。由于RAID瘫痪,D分区无法识别,E分区可识别但是拷贝文件报错。管理员重启服务器,导致RAID中先离线的硬盘上线并开始同步数据,同步没有完成管理员意识到有问题,于是就强制关机了,之后就没有再动过服务器。
服务器数据恢复—服务器raid磁盘故障离线导致阵列瘫痪的数据恢复案例
|
4月前
|
存储 运维 数据挖掘
服务器数据恢复—EMC存储raid5阵列故障导致存储瘫痪的数据恢复案例
服务器存储数据恢复环境: 北京某企业一台EMC FCAX-4存储上搭建一组由12块成员盘的raid5磁盘阵列,其中包括2块热备盘。 服务器存储故障: raid5阵列中两块硬盘离线,热备盘只有一块成功激活,raid瘫痪,上层LUN无法使用,存储崩溃。
|
4月前
|
存储 数据挖掘
服务器数据恢复—EMC存储崩溃后如何恢复存储中raid5阵列数据?
服务器存储数据恢复环境: 一台EMC存储中有一组raid5磁盘阵列,划分1个lun供小型机使用,上层采用ZFS文件系统。 服务器存储故障: 一台有一组raid5磁盘阵列的存储在运行过程中突然崩溃。管理员检查发现存储中的raid5阵列有两块硬盘离线,该阵列中的两块热备盘只有一块热备盘激活成功,raid5阵列瘫痪,存储不可用。

相关实验场景

更多