服务器数据恢复—误删除VMware虚拟机vmdk文件的数据恢复案例

本文涉及的产品
无影云电脑企业版,4核8GB 120小时 1个月
无影云电脑个人版,1个月黄金款+200核时
资源编排,不限时长
简介: 服务器数据恢复环境:某大厂PS4000服务器,服务器上部署VMware ESXi虚拟化平台。服务器故障:机房断电,重启后服务器中的某台虚拟机不能正常启动。管理员查看虚拟机配置文件,发现无法启动的虚拟机的配置文件除了磁盘文件以外其他配置文件全部丢失,xxx-flat.vmdk磁盘文件和xxx-000001-delta.vmdk快照文件还存在。联系VMware原厂工程师进行诊断,VMware原厂工程师尝试新建一个虚拟机,但发现存储空间不足,于是将故障虚拟机下的xxx-flat.vmdk磁盘文件删除了。VMware工程师重新建了一个虚拟机,分配了固定大小的虚拟磁盘,为虚拟机安装了Window

服务器数据恢复环境:
某大厂PS4000服务器,服务器上部署VMware ESXi虚拟化平台。

服务器故障:
机房断电,重启后服务器中的某台虚拟机不能正常启动。管理员查看虚拟机配置文件,发现无法启动的虚拟机的配置文件除了磁盘文件以外其他配置文件全部丢失,xxx-flat.vmdk磁盘文件和xxx-000001-delta.vmdk快照文件还存在。联系VMware原厂工程师进行诊断,VMware原厂工程师尝试新建一个虚拟机,但发现存储空间不足,于是将故障虚拟机下的xxx-flat.vmdk磁盘文件删除了。VMware工程师重新建了一个虚拟机,分配了固定大小的虚拟磁盘,为虚拟机安装了Windows Server操作系统,部署SQL Server数据库(作为宏桥和索菲两套应用的数据库),虚拟机磁盘包括:数据盘(精简模式)+快照数据盘。

服务器数据恢复过程:
1、在VMware vSphere Client上将挂载的存储设备中的VMFS卷以正常方式卸载掉。然后将存储上的VMFS卷通过网线的方式连接到北亚企安备份服务器上,将整个VMFS卷以扇区的方式镜像到备份空间上。之后的数据分析和数据恢复操作均在备份的数据上进行,避免对原始数据造成二次破坏。
2、基于备份文件分析VMFS卷的底层数据,服务器非正常断电导致故障虚拟机目录下的目录项破坏,这种破坏只是破坏了文件的目录项,不会影响虚拟机的重要数据,可以通过人工修复解决。
如果人为删除某个文件的话,则目录项对应的数据区索引会被清掉,也不会影响删除文件的实际数据,这种情况可根据删除虚拟磁盘文件中的文件系统以及虚拟磁盘中的文件类型在VMFS卷自由空间中进行碎片匹配和合并,最终恢复删除的虚拟磁盘文件。
但是在上述的两种情况之下又新建了一台虚拟机,并且分配了虚拟磁盘。经过分析发现分配的虚拟磁盘所使用的空间已经全部清零了,也是说这个新建的虚拟机所占用的磁盘空间全部被清零。 如果新分配的虚拟磁盘占用了删除虚拟机磁盘文件所释放的空间,那么这部分空间的数据是无法恢复的。
故障虚拟机的目录项区域:
001.jpg

3、方案A:根据VMFS卷的结构以及删除虚拟磁盘的文件系统信息,在底层的自由空间中扫描符合删除虚拟机磁盘的区域,:统计其数量和大小是否符合删除虚拟磁盘的大小。根据虚拟磁盘中文件系统的信息将这些扫描到的碎片进行排列组合,结果发现很多碎片缺失。重新扫描也没有找到这些碎片。将扫描到的碎片按照虚拟磁盘原本的顺序重组,暂且留空没有找到的碎片。利用虚拟磁盘快照程序将重组好的父盘和快照盘进行合并生成一个新的虚拟磁盘。再用北亚企安自主开发的程序解释虚拟磁盘中的文件系统,因为存在数据缺失的情况,文件系统解释过程中有很多报错,提示某些文件损坏。
解释完的文件系统:
002.jpg

文件系统解析完成后,没有找到原始的数据库文件。虽然宏桥备份和索菲备份这两个目录的目录结构正常,但是在尝试将备份导入数据库中时,数据库导入程序报错。
宏桥备份和索菲备份的部分目录结构:
003.jpg
003-1.jpg

导入.BAK文件报错信息:
004.jpg

4、方案B:由于实施方案一并没有将原始的数据库文件成功恢复,而且很多备份文件都无法正常使用。北亚企安数据恢复工程师只能采用方案B来恢复方案A中尚未恢复的数据库文件。
根据SQLServer数据库的结构去自由空间中找到数据库的开始位置。SQLServer数据库的第9个页会记录本数据库的数据库名,根据这个特征核对此数据库的头部页是否是正在查找的。SQLServer数据库的每个页中都会记录数据库页编号以及文件号,北亚企安数据恢复工程师根据这个特征编写数据库扫描程序,去底层扫描所有符合数据库页的数据碎片。按顺序将扫描出来的碎片重组成一个完整MDF文件,通过MDF校验程序检测整个MDF文件的完整性。在整个校验过程中,只有cl_system3.dbf和erp42_jck.dbf这2个文件由于有部分碎片没有找到所以校验不通过之外,其余数据库文件均校验成功。
校验完的MDF文件:
005.jpg

cl_system3.dbf文件中某个碎片丢失的区域:
006.jpg

5、方案B:方案A和方案B的实施并没有将所有的数据库文件全部恢复出来。cl_system3.dbf和erp42_jck.dbf这2个文件因缺失部分页导致其无法正常使用,可以尝试通过备份来恢复这两个数据库文件,但是在检查后发现cl_system3.dbf没有备份,而erp42_jck.dbf只有最近一个月的全部增量备份。
007.jpg

由于erp42_jck.dbf文件中只缺失少量的页,因此可以根据缺失的页号在增量备份中查找页,然后补到erp42_jck.dbf文件中,通过这个方法可以恢复一部分丢失的数据库页。虽然补完后erp42_jck.dbf文件还是缺失部分页,无法正常使用,但是通过北亚企安自主开发的数据库解析程序,数据恢复工程师将erp42_jck.dbf文件中比较重要的几十张表成功导出,并成功导入到新建的数据库中。
6、在本地服务器中搭建和原始环境一样的数据库环境,用户通过远程工具连接到验证服务器,安装宏桥应用软件,由用户方工程验证数据库的完整性。经过用户方工程师的仔细验证,数据库可以成功挂载,上层应用可以正常运行,数据记录基本没有缺失。用户方认可数据恢复结果。
008.jpg

相关文章
|
2天前
|
存储 数据挖掘
服务器数据恢复—V7000存储上多块Mdisk成员盘出现故障的数据恢复案例
服务器存储数据恢复环境: 一台V7000存储上共12块SAS机械硬盘(其中1块是热备盘),组建了2组Mdisk,创建了一个pool。挂载在小型机上作为逻辑盘使用,小型机上安装的AIX+Sybase。 服务器存储故障: V7000存储中磁盘出现故障,管理员发现问题后立即更换磁盘。新更换的硬盘在上线同步数据的时候,存储上另一块磁盘也出现问题,导致逻辑盘无法挂接在小型机上,业务暂时中断。V7000存储的管理界面上显示两块硬盘故障脱机。 pool无法加载,其中三个通用卷均无法挂载。
|
11天前
|
安全 数据挖掘
服务器数据恢复—RAID5阵列中两块硬盘离线导致阵列崩溃的数据恢复案例
服务器数据恢复环境: 两组分别由4块SAS接口硬盘组建的raid5阵列,两组raid5阵列划分LUN并由LVM管理,格式化为EXT3文件系统。 服务器故障: RAID5阵列中一块硬盘未知原因离线,热备盘自动激活上线替换离线硬盘。在热备盘上线过程中,raid5阵列中又有一块硬盘离线。热备盘同步失败,该raid阵列崩溃,LVM结构变得不完整,文件系统无法正常使用。
|
19天前
|
存储 运维 数据挖掘
服务器数据恢复—EVA存储中多块硬盘离线导致存储崩溃的数据恢复案例
一台HP EVA存储中有23块硬盘,挂接到一台windows server操作系统的服务器。 EVA存储上有三个硬盘指示灯亮黄灯,此刻存储还能正常使用。管理员在更换硬盘的过程中,又出现一块硬盘对应的指示灯亮黄灯,存储崩溃,无法使用了。
|
20天前
|
数据挖掘 Linux Windows
服务器数据恢复—服务器raid0数据恢复及数据迁移的案例
某品牌服务器上有一组由两块SAS硬盘组建的raid0阵列,上层是windows server操作系统+ntfs文件系统。服务器上一个硬盘指示灯显示黄颜色,该指示灯对应的硬盘离线,raid不可用。
|
3天前
|
存储 数据挖掘
服务器数据恢复—ZFS文件系统下数据恢复案例
服务器存储数据恢复环境: ZFS Storage 7320存储阵列中有32块硬盘。32块硬盘分为4组,每组8块硬盘,共组建了3组RAIDZ,每组raid都配置了热备盘。 服务器存储故障: 服务器存储运行过程中突然崩溃,排除人为误操作、断电、进水和其他机房不稳定因素。管理员重启服务器存储,系统无法进入,需要恢复服务器存储中的数据。
|
16天前
|
存储 Oracle 安全
服务器数据恢复—LINUX系统删除/格式化的数据恢复流程
Linux操作系统是世界上流行的操作系统之一,被广泛用于服务器、个人电脑、移动设备和嵌入式系统。Linux系统下数据被误删除或者误格式化的问题非常普遍。下面北亚企安数据恢复工程师简单聊一下基于linux的文件系统(EXT2/EXT3/EXT4/Reiserfs/Xfs) 下删除或者格式化的数据恢复流程和可行性。
|
18天前
|
存储 Oracle 关系型数据库
服务器数据恢复—华为S5300存储Oracle数据库恢复案例
服务器存储数据恢复环境: 华为S5300存储中有12块FC硬盘,其中11块硬盘作为数据盘组建了一组RAID5阵列,剩下的1块硬盘作为热备盘使用。基于RAID的LUN分配给linux操作系统使用,存放的数据主要是Oracle数据库。 服务器存储故障: RAID5阵列中1块硬盘出现故障离线,热备盘自动激活开始同步数据,在同步数据的过程中又一块硬盘离线,RAID5阵列瘫痪,上层LUN无法使用。
|
5天前
|
弹性计算 运维 安全
阿里云轻量应用服务器与ECS的区别及选择指南
轻量应用服务器和云服务器ECS(Elastic Compute Service)是两款颇受欢迎的产品。本文将对这两者进行详细的对比,帮助用户更好地理解它们之间的区别,并根据自身需求做出明智的选择。
|
6天前
|
SQL 弹性计算 安全
阿里云上云优选与飞天加速计划活动区别及购买云服务器后续必做功课参考
对于很多用户来说,购买云服务器通常都是通过阿里云当下的各种活动来购买,这就有必要了解这些活动的区别,同时由于活动内的云服务器购买之后还需要单独购买并挂载数据盘,还需要设置远程密码以及安全组等操作之后才能正常使用云服务器。本文就为大家介绍一下目前比较热门的上云优选与飞天加速计划两个活动的区别,以及通过活动来购买云服务器之后的一些必做功课,确保云服务器可以正常使用,以供参考。
|
9天前
|
弹性计算 安全 开发工具
灵码评测-阿里云提供的ECS python3 sdk做安全组管理
批量变更阿里云ECS安全组策略(批量变更)

相关产品

  • 云服务器 ECS
  • 下一篇
    DataWorks