开发者社区> 余二五> 正文

300GB*6 SCSI RAID5 LINUX服务器数据恢复手记

简介:
+关注继续查看
[摘要]
    某数码冲印网站,采用DELL POWEREDGE2850服务器,存储部分由6块300G硬盘组成RAID5,LINUX平台,1.5T逻辑磁盘中只包含一个卷,文件系统为EXT3,存储所有客户数码照片,服务器的故障导致整个公司无法开展工作。
之前网站正常工作中卷离线,管理员进入机房检查时,发现两块硬盘报黄灯,ID为1号与4号。致电DELL公司,DELL技术人员提供的解决方案为:随机选一块强制上线。
    用户选择了4号盘,强制上线后,可MOUNT,但很多目录打不开,某些目录下近一周的文件丢失,用户意识到了操作的错误,马上关机,未做其他操作。寻求数据恢复公司帮助。

[分析]
    非常典型的,离线的1号与4号盘并非同时OFFLINE,按故障情况分析,应该是4号盘先前离线,之后1号盘离线导致整个RAID崩溃。客户强制上线后,因数据不同步导致目录打不开或目录陈旧等现象。
    MOUNT成功系统便会写入一定量的数据,在写入数据的这些条带中,检验信息会重新生成,会导致部分检验信息陈旧。最直接的后果是无法直接通过还原RAID结构的方式进行数据恢复,只能依靠提取数据的方式进行恢复。

[解决方案]
1、  分析原RAID 6块盘的结构(RAID信息),去掉4号盘,加入1号盘,通过虚拟环境搭建RAID平台。
2、  对虚拟逻辑卷进行数据提取,将数据输出到另外的存储体上。

[解决过程]
1、  顺利分析出RAID结构后,成功搭建RAID。
2、  通过自主软件进行数据提取,发现1号盘有不规律的坏道。
3、  通过专业设备将1号盘完整镜像,90%以上的坏道成功读取。
4、  将镜像加入虚拟RAID环境,再次提取数据。
5、  恢复99%以上数据。

[给用户的建议]
1、DELL的2850事实上可以查询到RAID的日志,在两块以上盘离线的情况下,应该通过查询日志等方式确定离线的过程,即使强制上线,也需要风险最小(数据重要,尽量少做这类操作)
2、可以通过增加DRAC或hotspare等方式减少此类事故的发生率。
3、如果数据重要,可先行咨询数据恢复公司




本文转自 张宇 51CTO博客,原文链接:http://blog.51cto.com/zhangyu/33741,如需转载请自行联系原作者

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Linux搭建docker对服务器版本有要求吗?
Linux搭建docker对服务器版本有要求吗?
13 0
Linux服务器还有漏洞?建议使用 OpenVAS 日常检查!
Linux服务器还有漏洞?建议使用 OpenVAS 日常检查!
51 0
一台linux服务器最多能支持多少个TCP连接?(要区分客户端还是服务端)
一台linux服务器最多能支持多少个TCP连接?(要区分客户端还是服务端)
72 0
Linux 使用及配置 Samba 客户端访问Samba服务器
Linux 使用及配置 Samba 客户端访问Samba服务器
41 0
SpringBoot怎么获取到上传到Linux服务器(非项目内)的图片
SpringBoot怎么获取到上传到Linux服务器(非项目内)的图片
49 0
linux下fork函数创建父子进程的目的,模拟服务器与客户端通信
linux下fork函数创建父子进程的目的,模拟服务器与客户端通信
19 0
Linux:查看服务器信息,CPU、内存、系统版本、内核版本等
Linux:查看服务器信息,CPU、内存、系统版本、内核版本等
129 0
原来是Gson导致,本地和linux服务器不同的环境导致Date转换出现问题:Invalid time zone indicator ‘ ‘
看到报错日志,第一反应就是,date数据的问题,同时又能发现全是和gson相关 结合报错行数的代码,盲猜就是gson对时间处理的问题了 于是寻找解决方法
83 0
QGS
linux巡检服务器信息
记linux巡检服务器信息
35 0
修改Linux服务器时间的命令
修改Linux服务器时间的命令
49 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
网站/服务器取证 实践与挑战
立即下载
固守服务器的第一道防线——美联集团堡垒机的前世今生
立即下载
机器学习在大规模服务器治理复杂场景的实践
立即下载