DELL PowerEdge 2950 RAID5数据恢复手记-阿里云开发者社区

开发者社区> 开发与运维> 正文

DELL PowerEdge 2950 RAID5数据恢复手记

简介:
[摘要]
    北京科技大学,DELL PowerEdge 2950,RAID5,由300gb SAS 硬盘*6组成。未知原因,服务器无法正常工作,进入RAID控制界面查询,发现1号盘与6号盘损坏,经DELL工程师指点后,强制上线6号盘,结果盘阵无法启动(操作系统也安装于此RAID),客户意识到操作的危险性,于是停止所有操作,此间RAID工作约20分钟。
    系统为REDHAT 文件系统为EXT3,存储着北京科技大学某研究室整整运算1年多的结果,数据至关重要。
[难点]
    1、SAS的连接问题,SAS是新的服务器硬盘接口,绕过RAID,以单盘连接SAS的方式相对来困难一些。不过,这是过去,这个问题早已解决。
    2、容量大,为1.8TB,如果需要重组及导出,会花大量时间及磁盘空间。
    3、LINUX EXT3文件系统,处理起来不像WINDOWS平台文件系统那样直接。
    4、分区方式采用LVM方式。
[分析]
    根据客户描述及表现,此例中RAID极有可能早先已有一块盘OFFLINE,突然性的另一块盘离线导致RAID整个盘阵崩溃,按描述,应该1号盘为后离线的,6号盘早已离线。
    如果上面分析属实,则1号盘必须为可读取的方可恢复全部数据。但强制上线6号盘,也许会导致文件系统出现不一致,导致其他盘内的数据发生变更。
[解决方案]
    应大致检测所有硬盘状态,分析RAID信息,剔掉可能的陈旧数据盘。
    重组RAID,读取数据。或直接以EXT3的模式恢复数据。
[解决过程]
    1、出于对用户数据负责,先用6块320GB移动硬盘对原盘进行一对一的镜像,此过程使用不含RAID功能的SAS适配器作为物理连接。
    2、连接6块镜像盘,对其结构进行分析,得到原RAID的结构参数。
    3、检测RAID校验一致辞性,发现极多不匹配。
    4、从6块盘中剔掉陈旧盘。但此时发现,前部分区结构的内容错误,应该为后强制上线所致(害人的DELL工程师)
    5、修正硬盘结构,直接将LVM改为普通分区指引。
    6、通过自主开发软件直接解释EXT3,读取数据,以SAMBA方式导出至LINUX EXT3目标分区(因自主软件为WINDOWS平台)。
    数据恢复成功!
[给用户的建议]
    1、DELL的服务器事实上可以查询到RAID的日志,在两块以上盘离线的情况下,应该通过查询日志等方式确定离线的过程,即使强制上线,也需要风险最小(数据重要,尽量少做这类操作)
    2、可以通过增加DRAC或hotspare等方式减少此类事故的发生率。
    3、如果数据重要,可先行咨询数据恢复公司




本文转自 张宇 51CTO博客,原文链接:http://blog.51cto.com/zhangyu/33739,如需转载请自行联系原作者

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
开发与运维
使用钉钉扫一扫加入圈子
+ 订阅

集结各类场景实战经验,助你开发运维畅行无忧

其他文章