DELL PowerEdge 2950 RAID5数据恢复手记

简介:
+关注继续查看
[摘要]
    北京科技大学,DELL PowerEdge 2950,RAID5,由300gb SAS 硬盘*6组成。未知原因,服务器无法正常工作,进入RAID控制界面查询,发现1号盘与6号盘损坏,经DELL工程师指点后,强制上线6号盘,结果盘阵无法启动(操作系统也安装于此RAID),客户意识到操作的危险性,于是停止所有操作,此间RAID工作约20分钟。
    系统为REDHAT 文件系统为EXT3,存储着北京科技大学某研究室整整运算1年多的结果,数据至关重要。
[难点]
    1、SAS的连接问题,SAS是新的服务器硬盘接口,绕过RAID,以单盘连接SAS的方式相对来困难一些。不过,这是过去,这个问题早已解决。
    2、容量大,为1.8TB,如果需要重组及导出,会花大量时间及磁盘空间。
    3、LINUX EXT3文件系统,处理起来不像WINDOWS平台文件系统那样直接。
    4、分区方式采用LVM方式。
[分析]
    根据客户描述及表现,此例中RAID极有可能早先已有一块盘OFFLINE,突然性的另一块盘离线导致RAID整个盘阵崩溃,按描述,应该1号盘为后离线的,6号盘早已离线。
    如果上面分析属实,则1号盘必须为可读取的方可恢复全部数据。但强制上线6号盘,也许会导致文件系统出现不一致,导致其他盘内的数据发生变更。
[解决方案]
    应大致检测所有硬盘状态,分析RAID信息,剔掉可能的陈旧数据盘。
    重组RAID,读取数据。或直接以EXT3的模式恢复数据。
[解决过程]
    1、出于对用户数据负责,先用6块320GB移动硬盘对原盘进行一对一的镜像,此过程使用不含RAID功能的SAS适配器作为物理连接。
    2、连接6块镜像盘,对其结构进行分析,得到原RAID的结构参数。
    3、检测RAID校验一致辞性,发现极多不匹配。
    4、从6块盘中剔掉陈旧盘。但此时发现,前部分区结构的内容错误,应该为后强制上线所致(害人的DELL工程师)
    5、修正硬盘结构,直接将LVM改为普通分区指引。
    6、通过自主开发软件直接解释EXT3,读取数据,以SAMBA方式导出至LINUX EXT3目标分区(因自主软件为WINDOWS平台)。
    数据恢复成功!
[给用户的建议]
    1、DELL的服务器事实上可以查询到RAID的日志,在两块以上盘离线的情况下,应该通过查询日志等方式确定离线的过程,即使强制上线,也需要风险最小(数据重要,尽量少做这类操作)
    2、可以通过增加DRAC或hotspare等方式减少此类事故的发生率。
    3、如果数据重要,可先行咨询数据恢复公司
本文转自 张宇 51CTO博客,原文链接:http://blog.51cto.com/zhangyu/33739,如需转载请自行联系原作者
目录
相关文章
|
存储 数据安全/隐私保护 算法
|
关系型数据库 固态存储 虚拟化