【vSAN分布式存储服务器数据恢复】VMware vSphere vSAN ESXi超融合HCI分布式存储数据恢复案例

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: 近期,我司处理了一个由10台华为OceanStor存储组成的vSAN超融合架构,其中一台存储闪存盘出现故障,用户取下后用新的闪存盘代替,然后对该闪存盘所在的磁盘组进行重建,导致集群中一台使用0置备策略的虚拟机数据丢失。

一:案例描述

近期,我司处理了一个由10台华为OceanStor存储组成的vSAN超融合架构,其中一台存储闪存盘出现故障,用户取下后用新的闪存盘代替,然后对该闪存盘所在的磁盘组进行重建,导致集群中一台使用0置备策略的虚拟机数据丢失。

vSAN.png

二:解决方案

1.案例评估

经过现场勘验,得知10台存储都采用相同的配置,2块300GB的ESXi系统盘(RAID1),8块2TB的HDD物理硬盘,4块480GB的SSD闪存盘,重建磁盘组后丢失一个ID为***的虚拟磁盘文件,该虚拟磁盘大小为20TB。ESXi系统盘是独立的,与HDD物理盘和SSD闪存盘是隔绝的,不参与数据存储工作,采用的是常见的VMFS分区结构;其中2块HHD加上1块SSD组成一个磁盘组,本次案例用户在创建集群的时候,选择的是单点式存储,启用了vSAN,三块硬盘都采用了vSAN分区结构;故:同一磁盘组下的2块HDD隶属磁盘组内的SSD,但并没有直接数据关系。

整个VMware vSphere共控制多个集群,其中出现故障的集群使用的vSAN分布式结构存储,该vSAN由10台华为2288H V5 存储构成,每一台存储由2块HDD(物理盘)和一块SSD(闪存盘)构成1个磁盘组,每台存储都有4个磁盘组。

vSAN1.png

2.恢复方案

为确保数据的安全性,需要将10台存储的所有硬盘单独取出,并逐一进行完整的扇区镜像,再对镜像盘进行恢复操作;逐一镜像完成后,使用我司自主研发的VMware vSAN数据恢复系统对镜像文件进行扫描,提取每一块硬盘上面分布式存放的数据单元;使用前依据虚拟对象ID,查找该ID的数据分布情况,查找隶属于该ID的故障域和子故障域将获取的信息写入程序根目录的data.ini配置文件中(如果有数据则清空再写入)。设置组件保存路径,然后分次逐一选择已镜像的磁盘文件,也可以直接选择所有镜像文件所在的目录,VMware vSAN数据恢复系统会自动扫描分散的数据单元,并重构虚拟磁盘文件。数据提取完成后,最终使用任意软件对重构后的文件进行展开,加载后即可访问虚拟磁盘内的文件数据。

vsan3.jpg vsan4.jpg

三:案例总结

随着数据存储量越来越大,一般的存储难以满足很多大公司的使用需求,故数据中心服务器出现了各种虚拟化平台,这些平台为了更好的幸好和方便管理,都自研了一些独有的存储方式,其中最常见的就是分布式存储是基于VMware vSphere ESXi虚拟机所创建的vSAN分布式存储架构。vSAN对象可以看成一个卷,也可以理解成是一个逻辑卷,每个存在于数据存储上的vSAN对象都是由多个组件构成,这些组件分布于集群主机上的磁盘组中。在恢复vSAN数据的过程中,获取组件信息是最关键的,因为组件是每个对象的重要组成部分。

相关文章
|
1天前
|
运维 数据挖掘 索引
服务器数据恢复—Lustre分布式文件系统服务器数据恢复案例
5台节点服务器,每台节点服务器上有一组RAID5阵列。每组RAID5阵列上有6块硬盘(其中1块硬盘设置为热备盘,其他5块硬盘为数据盘)。上层系统环境为Lustre分布式文件系统。 机房天花板漏水导致这5台节点服务器进水,每台服务器都有至少2块硬盘出现故障。每台服务器中的RAID5阵列短时间内同时掉线2块或以上数量的硬盘,导致RAID崩溃,服务器中数据无法正常读取。
|
6天前
|
存储 数据挖掘
服务器数据恢复—V7000存储上多块Mdisk成员盘出现故障的数据恢复案例
服务器存储数据恢复环境: 一台V7000存储上共12块SAS机械硬盘(其中1块是热备盘),组建了2组Mdisk,创建了一个pool。挂载在小型机上作为逻辑盘使用,小型机上安装的AIX+Sybase。 服务器存储故障: V7000存储中磁盘出现故障,管理员发现问题后立即更换磁盘。新更换的硬盘在上线同步数据的时候,存储上另一块磁盘也出现问题,导致逻辑盘无法挂接在小型机上,业务暂时中断。V7000存储的管理界面上显示两块硬盘故障脱机。 pool无法加载,其中三个通用卷均无法挂载。
|
15天前
|
安全 数据挖掘
服务器数据恢复—RAID5阵列中两块硬盘离线导致阵列崩溃的数据恢复案例
服务器数据恢复环境: 两组分别由4块SAS接口硬盘组建的raid5阵列,两组raid5阵列划分LUN并由LVM管理,格式化为EXT3文件系统。 服务器故障: RAID5阵列中一块硬盘未知原因离线,热备盘自动激活上线替换离线硬盘。在热备盘上线过程中,raid5阵列中又有一块硬盘离线。热备盘同步失败,该raid阵列崩溃,LVM结构变得不完整,文件系统无法正常使用。
|
23天前
|
存储 运维 数据挖掘
服务器数据恢复—EVA存储中多块硬盘离线导致存储崩溃的数据恢复案例
一台HP EVA存储中有23块硬盘,挂接到一台windows server操作系统的服务器。 EVA存储上有三个硬盘指示灯亮黄灯,此刻存储还能正常使用。管理员在更换硬盘的过程中,又出现一块硬盘对应的指示灯亮黄灯,存储崩溃,无法使用了。
|
24天前
|
数据挖掘 Linux Windows
服务器数据恢复—服务器raid0数据恢复及数据迁移的案例
某品牌服务器上有一组由两块SAS硬盘组建的raid0阵列,上层是windows server操作系统+ntfs文件系统。服务器上一个硬盘指示灯显示黄颜色,该指示灯对应的硬盘离线,raid不可用。
|
7天前
|
存储 数据挖掘
服务器数据恢复—ZFS文件系统下数据恢复案例
服务器存储数据恢复环境: ZFS Storage 7320存储阵列中有32块硬盘。32块硬盘分为4组,每组8块硬盘,共组建了3组RAIDZ,每组raid都配置了热备盘。 服务器存储故障: 服务器存储运行过程中突然崩溃,排除人为误操作、断电、进水和其他机房不稳定因素。管理员重启服务器存储,系统无法进入,需要恢复服务器存储中的数据。
|
20天前
|
存储 Oracle 安全
服务器数据恢复—LINUX系统删除/格式化的数据恢复流程
Linux操作系统是世界上流行的操作系统之一,被广泛用于服务器、个人电脑、移动设备和嵌入式系统。Linux系统下数据被误删除或者误格式化的问题非常普遍。下面北亚企安数据恢复工程师简单聊一下基于linux的文件系统(EXT2/EXT3/EXT4/Reiserfs/Xfs) 下删除或者格式化的数据恢复流程和可行性。
|
22天前
|
存储 Oracle 关系型数据库
服务器数据恢复—华为S5300存储Oracle数据库恢复案例
服务器存储数据恢复环境: 华为S5300存储中有12块FC硬盘,其中11块硬盘作为数据盘组建了一组RAID5阵列,剩下的1块硬盘作为热备盘使用。基于RAID的LUN分配给linux操作系统使用,存放的数据主要是Oracle数据库。 服务器存储故障: RAID5阵列中1块硬盘出现故障离线,热备盘自动激活开始同步数据,在同步数据的过程中又一块硬盘离线,RAID5阵列瘫痪,上层LUN无法使用。
|
27天前
|
存储 运维 算法
服务器数据恢复—raid6阵列硬盘重组raid5阵列如何恢复raid6阵列数据?
服务器存储数据恢复环境: 存储中有一组由12块硬盘组建的RAID6阵列,上层linux操作系统+EXT3文件系统,该存储划分3个LUN。 服务器存储故障&分析: 存储中RAID6阵列不可用。为了抢救数据,运维人员使用原始RAID中的部分硬盘重新组建RAID并进行了初始化。 初始化开始一段时间后,运维人员察觉到情况有异后强制终止初始化,这个时候初始化已经完成一半以上。数据部分已被不可逆的破坏。
|
1月前
|
存储 Oracle 关系型数据库
服务器数据恢复—光纤存储映射的卷挂载不上的数据恢复案例
服务器存储数据恢复环境: 某品牌光纤存储上共有16块FC硬盘。存储上的卷映射到Linux操作系统上。Linux操作系统上运行Oracle数据库。 服务器存储故障&检测: 存储上2块硬盘故障灯亮起,存储映射到linux操作系统上的卷挂载不上,业务中断。