EMC Isilon(OneFS)删除重要数据后恢复案例

简介:
【故障描述】
某大学因黑客入侵,导致其“教学系统”的重要数据被删除。其中包括“教学系统”中的MSSQL数据库,以及大量的MP4、ASF和TS类型的视频教学文件。整体存储架构采用EMC高端网络NAS(Isilon S200),节点数量为3个,每个节点配置12块3T STAT硬盘,无SSD。所有数据一共分两部分,一部分数据为vmware虚拟机(WEB服务器),通过NFS协议共享到ESX主机,另一部分数据为视频教学文件,通过CIFS协议共享给虚拟机(WEB服务器)。黑客只删除了NFS共享的所有数据(也就是所有虚拟机),而CIFS共享的数据则没有被删除。
EMC Isilon(OneFS)删除重要数据后恢复案例
·
【数据备份】
因考虑到数据安全性,避免对数据造成二次破坏,需对所有硬盘进行全部备份。但是由于磁盘数量太多(单节点12块盘,3个节点36块盘),且单盘容量太大(单盘3TB,一共108TB),因此备份周期会较长。最终客户决定,只对存储中现有数据进行备份,并且由我们备份一次,客户再备份一次,以确保现有数据安全。
EMC Isilon(OneFS)删除重要数据后恢复案例
·
【数据分析】
备份完所有数据后,在Isilon的web管理界面中将Isilon正常关机。再将所有节点上的所有硬盘贴上标签,并依次取出再放到数据恢复平台中,开始分析所有硬盘中的数据。
EMC Isilon(OneFS)删除重要数据后恢复案例
·
至此先简单介绍一下Isilon的存储结构,Isilon内部使用的是分布式文件系统OneFS。在Isilon存储集群中,每个节点都是一个单一的OneFS文件系统,因此Isilon支持横向扩展,并且不会影响正在使用的数据。在存储集群工作时,所有节点提供相同的功能,节点与节点之前没有主备之分。当用户往存储集群中存储文件时,OneFS层会将文件分成128K的片段分别存到不同的节点中,而在节点层又会将128K的片段分成8K的小片段分别存到该节点的不同硬盘中。而用户文件的Indoe信息、目录项及数据MAP则会分别存储在所有节点中,这样可以确保用户不管从那个节点都可以访问到所有数据。Isilon在初始化时会让用户选择相应的存储冗余模式,不同的冗余模式所提供的数据安全级别也不一样(默认3个节点采用N+2:1模式)。
EMC Isilon(OneFS)删除重要数据后恢复案例
·
由于客户数据是被删除了,因此不用过多考虑存储的冗余级别,重点需要分析文件删除后,文件Indoe及数据MAP是否发生变化。和客户沟通后,删除的虚拟磁盘文件都在64G或以上,并且存储中没有其他类型的大文件。编写扫描所有文件Indoe的程序,将文件大小符合64G或以上的Indoe都扫描出来。再仔细分析扫描出来的Indoe,发现Indoe中记录的数据MAP位置,其index指向的内容已不再是正常数据,并且所有节点上的Indoe均是同样的情况。再仔细分析Inode,发现大文件的数据MAP会有多层(树结构),并且数据MAP中会记录文件的唯一ID,因此可以尝试找到文件最底层的数据MAP。抱着侥幸心理对文件最底层的数据MAP做遍历跟踪操作,发现最低层的数据MAP果然还在。
·
【数据恢复】
编写程序,从文件的Inode中取出文件的唯一ID,然后对所有符合该ID的数据MAP做聚合。并根据数据MAP中的VCN号做排序,发现每个文件的前17088项数据MAP都不存在,也就意味着每个文件的前17088项数据是真的没办法恢复了(心情一下跌落低谷)。
仔细换算了一下发现丢失的数据MAP项总共才包含不到1G的数据,而删除的文件全是虚拟机的vmdk文件,里面都是NTFS的文件系统,而NTFS文件系统的MFT基本都在3G的位置,也就是只需要在每个vmdk文件的头部手动伪造一个MBR和DBR就可以解释vmdk里面的数据了(真不知到是巧合呢!还是巧合呢!)。赶紧编写代码,对扫描到的数据MAP做解释,并根据VCN号的顺序导出数据,没有MAP的情况保留为零。
经过不断的测试,程序终于编好了,先导出一个vmdk文件来看看。结果令我大吃一惊,导出的vmdk文件比实际情况要小,并且vmdk中MFT的位置也与自身描述不符。是程序的问题?还是数据MAP本身已损坏?手动随机验证了几个MPA发现都能指向数据区,而程序解释MAP的方式也都没有问题。就在我百思不得其解的时候,我突然想到Isilon这么高端的存储不可能没有文件稀疏吧!否则空间得浪费多少啊!立马根据数据MAP验证了一下,发现文件果然是稀疏的。
修改代码,重新导出刚才的vmdk,这次vmdk大小符合实际大小,且MFT的位置也在相应位置。手工伪造一个MBR,分区表以及DBR,再用北亚开发的文件系统解释工具成功解释其文件系统,导出vmdk里面的数据库及视频文件。
在验证了此vmdk中的数据库及视频文件没问题后,批量导出所有重要的vmdk文件,再手工一个一个的去修改每个vmdk文件。
EMC Isilon(OneFS)删除重要数据后恢复案例
·
【数据验收】
将客户所有重要的数据恢复完成后,由客户方安排工程师对恢复的所有数据做完整性及准确性检测,经过长达1天的验证工作。数据最终确定完全没有问题,数据恢复成功。
整个恢复过程虽然很曲折,但是结果很满意。








本文转自 宋国建 51CTO博客,原文链接:http://blog.51cto.com/sun510/2066836,如需转载请自行联系原作者
目录
相关文章
|
5月前
|
存储 运维 Oracle
【NetApp数据恢复】NetApp存储卷被误删除的数据恢复案例
NetApp数据恢复环境: NetApp某型号存储,存储中有数十块SAS硬盘,该型号NetApp存储硬盘是扇区大小是520字节。存储中的lun都映射给小型机使用,存放Oracle数据库文件,采用ASM裸设备存储方式。 NetApp存储故障: 由于业务发展需要重新规划存储空间,工作人员直接将存储卷全部删除并重新分配。当删除卷还没有开始重新分配的时候,上层业务宕机,运维工程师紧急排查故障情况,发现业务服务器上的磁盘都消失了,无法访问数据。
【NetApp数据恢复】NetApp存储卷被误删除的数据恢复案例
|
4月前
|
存储 数据挖掘 数据库
服务器数据恢复—EMC Isilon存储数据恢复案例
服务器存储数据恢复环境: EMC Isilon S200集群存储,共三个节点,每节点配置12块SATA硬盘。 服务器存储故障: 工作人员误操作删除虚拟机,虚拟机中数据包括数据库、MP4、AS、TS类型的视频文件等。需要恢复数据的虚拟机通过NFS协议共享到ESX主机,视频文件通过CIFS协议共享给虚拟机(WEB服务器)。 通过NFS协议共享的所有数据(虚拟机)被删除,而通过CIFS协议共享的数据没有被删除。
服务器数据恢复—EMC Isilon存储数据恢复案例
|
2月前
|
存储 算法 数据库
NetApp数据恢复—NetApp存储误删除文件的数据恢复案例
某公司一台NetApp存储,该存储中有24块磁盘。 工作人员误删除了NetApp存储中一个文件夹,文件夹中有非常重要的数据。 数据恢复工程师在现场对该存储进行了初检。虽然这个文件夹被删除很长时间,但是根据NetApp存储中的WAFL文件系统的特性,删除数据被覆盖的可能性不大,可以尝试恢复数据。
NetApp数据恢复—NetApp存储误删除文件的数据恢复案例
|
1月前
|
存储 数据挖掘 索引
NetApp数据恢复—NetApp存储误删除数据恢复案例
NetAapp某型号存储,WAFL文件系统。工作人员误操作将NetApp存储中重要数据删除。
|
2月前
|
存储 虚拟化
【服务器数据恢复】戴尔DELL EMC SC系列存储服务器故障StorageCenter停机错误数据恢复案例
客户报告其戴尔DELL SCv/EMC SC E10J (4020) 存储服务器故障,登录后提示Storage Center停机且数据不可访问。此故障可能源于系统问题或硬盘故障。解决方案包括:若为系统问题,可联系戴尔售后重装系统以恢复数据访问;若涉及硬盘损坏,则需物理镜像硬盘或将所有硬盘取出并手动解析虚拟化信息以重组阵列结构。此类故障常见于保修期后的服务器,需定期维护预防。
35 1
|
5月前
|
存储 数据挖掘 索引
NetApp数据恢复—NetApp存储误删除数据的数据恢复案例
某公司NetApp存储设备,人为误操作导致NetApp存储内部分重要数据被删除,该NetApp存储采用WAFL文件系统,底层是由多块硬盘组成的raid阵列。
NetApp数据恢复—NetApp存储误删除数据的数据恢复案例
|
5月前
|
存储 运维 数据挖掘
服务器数据恢复—华为OceanStor存储数据恢复案例
服务器数据恢复环境: 华为OceanStor某型号存储,存储内有一组由24块硬盘组建的raid5阵列,配置1块热备盘。 服务器故障: 该存储raid5阵列中有一块硬盘离线,热备盘自动激活并开始同步数据,在热备盘同步数据的过程中,raid5阵列中另一块硬盘离线,上层应用崩溃,数据丢失。
服务器数据恢复—华为OceanStor存储数据恢复案例
|
11月前
|
存储 运维 数据挖掘
服务器数据恢复—EMC Unity存储数据恢复案例
服务器数据恢复环境: EMC Unity某型号存储,连接了2台硬盘柜。2台硬盘柜上创建2组互相独立的POOL,2组POOL共有21块520字节硬盘。21块硬盘组建了2组RAID6,1号RAID6有11块硬盘. 2号RAID6有10块硬盘。 服务器故障&检测: 工作人员误操作,删除了2组POOL上的部分数据卷。
服务器数据恢复—EMC Unity存储数据恢复案例
|
存储 数据挖掘
服务器数据恢复-IBM Storwize V7000存储数据恢复案例
服务器数据恢复环境: P740+AIX+Sybase+V7000存储,存储阵列柜上共12块SAS机械硬盘(其中一块为热备盘)。 服务器故障: 存储阵列柜中有磁盘出现故障,工作人员发现后更换磁盘,新更换的磁盘数据同步到40%左右时,阵列柜中的另一块磁盘也出现问题,数据同步中断,逻辑盘无法挂接到小型机上,业务中断。存储的管理界面显示2块硬盘故障脱机。 阵列柜中的磁盘共组建了2组Mdisk,加到一个pool中。现在主要数据pool无法加载,有3个通用卷无法挂载。