SUN平台,光纤共享存储互斥失败导致的数据灾难恢复

简介:
[数据恢复故障描述]
  两台SPARC SOLARIS系统通过光纤交换机共享同一存储,本意是作为CLUSTER使用,但配置不当,两台SERVER并未很好地对存储互斥,设计意图为:平时A服务器正常工作,当A服务器宕掉后,关掉A,开启B接管服务。
  偶然的机会,一位管理人员开启B服务器,查到B服务器连接了一组很大的磁盘(实际上就是那个共享存储),因B服务器一直闲置未用,管理员以为磁盘也是闲置的,于是将整个磁盘的某个分区做了newfs。
  A服务器很快报警并宕机,重启A服务器后,发现所有的文件系统均无法mount,执行fsck后,大多数分区的数据均修复成功,只有在B机做过newfs的文件系统结果不理想,根目录下只有一个lost+found文件夹,里面有大量数字标号的文件。
  故障文件系统存储了两组ORACLE实例,原结构为UFS,约有200~400个数据文件需要恢复。
 
[数据恢复分析]
  光纤设备的共享冲突案例很多,起缘于光纤交换的灵活性。此例中,A机与B机同时对UFS这个单机文件系统进行访问是很糟糕的,两台SERVER都以想当然的独享方式对存储进行管理,A机正常管理的文件系统其实底层上已经被B机做了文件系统初始化,A机从缓冲区写入文件系统的数据也会破坏B机初始化的结果。
  B机newfs实际上直接会作用于原先的文件系统之上,但此例与单纯的newfs会有些不同,在A机宕机之前,会有一小部分数据(包括元数据)回写回文件系统。newfs如果结构与之前的相同,数据区是不会被破坏的,同时如果有一小部分元数据存在,部分数据恢复的可能性还是存在的。
  UFS是传统的UNIX文件系统,以块组切割,每块组分配若干固定的inode区。文件系统newfs时,如果结构与之前的相同,文件系统最重要的inode区便会全部初始化,之前的无法保留,inode管理着所有文件的重要属性,所以单纯从文件系统角度考虑,数据恢复的难度很大。
  好在oracle数据文件的结构性很强,同时UFS文件系统还是有一定的存储规律性,可以通过对oracle数据文件的结构重组,直接将数据文件、控制文件、日志等恢复出来。同时oracle数据文件本身会有表名称描述,也可以反向推断原来的磁盘文件名。
 
[数据恢复过程]
  对故障的文件系统做dd备份。
  针对整个镜像文件做完全的oracle数据结构分析、重组。
  对部分结构太乱,无法重组的文件,参考ufs文件系统结构特征进行辅助分析。
  利用恢复的数据文件、控制文件在oracle平台恢复数据库。
 
[数据恢复结论]
  所有数据库完全恢复。
 
[后记]
  fsck是很致命的操作,在fsck之前最好做好备份(dd即可)。
  光纤存储的不互斥是非常多的数据灾难原因,方案应谨慎部署与实施。




本文转自 张宇 51CTO博客,原文链接:http://blog.51cto.com/zhangyu/152186,如需转载请自行联系原作者
目录
相关文章
|
1月前
|
存储 缓存 固态存储
VSAN存储故障导致虚拟机无法访问的VSAN数据恢复案例
VSAN数据恢复环境: 由四台某品牌服务器组建的VSAN集群,每台节点服务器上有两个磁盘组。每个磁盘组中有1块SSD硬盘+5块SAS硬盘,SSD作为闪存,SAS硬盘作为容量盘。 VSAN故障: VSAN集群中一个节点服务器上其中一个磁盘组中的容量盘出现故障离线,VSAN开始数据的重构迁移,数据迁移还没有完成的时候机房停电导致数据迁移中断。来电后启动所有设备后,管理员发现另一个磁盘组中的两块容量盘出现故障离线,VSAN数据存储出现问题。VSAN管理控制台可以登录,但是所有虚拟机都无法访问。
|
1月前
|
消息中间件 定位技术 数据库
事务跨数据中心处理
事务跨数据中心处理
18 1
|
24天前
|
算法 编译器 C语言
共享介质与非共享介质:网络通信的两种模式
共享介质与非共享介质:网络通信的两种模式
30 1
|
4月前
|
存储 数据挖掘
Vsan数据恢复—vSAN逻辑架构出现故障的数据恢复案例
一台存储采用了VSAN分布式存储架构,存储内共有24块硬盘存储数据。 这台vSAN存储设备关机重启。经过数据恢复工程师的检测,发现vSAN逻辑架构出现故障,上层虚拟机瘫痪,存储内的数据丢失。
|
7月前
|
存储 缓存 算法
vSAN数据恢复-开启重删压缩机制的全闪存vSAN数据恢复案例
vsan数据恢复环境: 一套VMware vSAN超融合基础架构,全闪存,开启压缩重删。共11台服务器节点。每台服务器节点上配置1块PCIE固态硬盘和8-10块SSD固态硬盘。 每个服务器节点上创建1个磁盘组,每个磁盘组将1个PCIE固态硬盘识别为2个硬盘作为缓存盘,将8-10个SSD固态硬盘作为容量盘,共同组成vSAN存储空间,用来存储虚拟机文件。 vsan故障&检测: vSAN中一台服务器节点的PCIE缓存盘发生故障,导致vSAN逻辑架构出现故障,2台虚拟机磁盘组件出现问题,虚拟机无法正常使用。
vSAN数据恢复-开启重删压缩机制的全闪存vSAN数据恢复案例
|
7月前
|
数据中心 网络虚拟化 虚拟化
联盟时代VIII.灾难容错和切换(2)
在上期的分享中,笔者对Federation网络架构下满足“本地输出”要求的场景在出现故障时的容错和切换情况进行了说明。当整体NSX网络在设计时就充分考虑冗余的前提下,大部分的“组件故障”并不会引起大面积的“业务停摆”。但Edge集群的故障不仅仅会造成南北向网络可达性的中断,也同样会造成跨数据中心的东西向网络中断;因此笔者认为Edge集群的稳定性很大程度上决定了Federation网络的稳定性。今天的分享将围绕不满足“本地输出”的场景展开,看看在具有Tier1SR实例的Federation网络模型中,灾难容错和网络切换的情况究竟是如何的一番天地。
|
存储 应用服务中间件 文件存储