服务器RAID磁盘坏道修复实战

简介:

上周在线监控系统nagios发送了一条报警警告短信,内容大体是磁盘阵列错误

于是乎登陆报警服务器使磁盘阵列检测工具进行了详细的检查,报告显示

Media Error Count :2

wKioL1LKY2qgMjG1AADzBR07ros581.jpg

既然是警告也就不是特别严重的错误,经过与戴尔工程师的确认,是磁盘出现了坏道,由于是图片服务器且有备份,暂时没有去机房处理。

过了两天又出现了另一台MySQL数据库服务器也发出了同样的警报,可怕的是通过检测报告的

Media Error Count :24

Other Error Count:2

wKioL1LKY3zCZGETAADnGsEVC0I742.jpg

看样子服务器在今年是硬件故障高发期啊,Dell服务器如果不是由厂家进货的话,如果你是维护的人员可就要当心了。

我说的什么意思你懂得!


    于是发邮件和总监和开发经理进行沟通,邮件中说了故障的详细情况,并且给出了当前的紧急解决措施(其中图片服务器做了文件的异机备份,数据库服务器由于是主从结构,这个不必太担心,切每天都有备份计划本地和异地)有一点服务器的磁盘是支持热插拔的,也就是说不用停机进行磁盘的更换是没有问题的,但是为了安全平稳经过沟通一致认为在晚上比较合适(其实这完全是没信心导致的,白天处理其实影响不大,可能就是会导致IO负载高一些),避开了业务高峰和访问高峰,这样给我们解决问题提供了充足的时间。

    最让我放心的是服务器的阵列配置是通过4块磁盘做的RAID5+hot spare 这样的配置有一个很大的好处就是: 如果正常的RAID5中的三块磁盘有任何一块损坏了,RAID阵列暂时是安全的

如果配置了热备盘,那么热备盘会在RAID阵列中某块磁盘算坏的时候进行替补,RAID阵列重建。 当损坏的磁盘更换后。 热备盘会识别到,然后将自身的数据与新替换的磁盘进行数据同步。当数据同步完成之后就会恢复到原来的角色-热备盘。 好神奇啊:)

     知道了阵列的工作原理也就不用担心了,第二天晚上按照事先计划好的方案进行

首先进行重要文件的手工备份以保持备份的最新,图片,数据库等备份到异地Ok

然后按照预先的计划,拔下故障磁盘,立即插入新的磁盘,这个时候,新插入磁盘会闪烁几秒钟,这个过程就是主板识别的过程,然后指示一直处于静止状态。

这个时候第四块硬盘也就是热备盘的数据读写灯狂闪,你应该猜到了,热备已经检测到有磁盘掉线了,然后就自动加入RAID进行重建,300G的容量大概重建完成用了30分钟的时间

为了验证我的想法,我把图片服务器进行了重启然后进入到BIOS里面的RAID卡配置工具里面进行查看,这个时候显示的是热备盘参与阵列进行重建,而替换的新磁盘状态是READY

等了大约30分钟后,RAID重建完成。 替换的新磁盘的状态马上就变成了 replacing 。这个过程大概同样需要30分钟左右。

在系统中进行检测磁盘的状态是 cpoyback。

最后正常的状态是 热备盘的角色恢复成热备模式,阵列完成重建,正常工作。

进入系统重新检测错误消失了

注:以上说道的在系统中检测的具体工具是:

/opt/MegaRAID/MegaCli/MegaCli64  -PDList -aAll

wKioL1LKY_ziQNtrAADYQdYbcLg815.jpg

wKiom1LKZAnyfL1VAADoBNlS8_o638.jpg





     本文转自andylhz 51CTO博客,原文链接:http://blog.51cto.com/andylhz2009/1348992,如需转载请自行联系原作者


相关文章
|
26天前
|
存储 安全 数据挖掘
服务器数据恢复—异常断电导致EVA存储中RAID信息丢失的数据恢复案例
意外断电导致raid硬件损坏或者riad管理信息丢失等raid模块损坏而导致数据丢失的情况非常普遍。正常情况下,磁盘阵列一旦创建完成就不会再对管理模块中的信息进行更改,但是raid管理模块中的信息属于可修改信息,一次或多次的意外断电可能会导致这部分信息被篡改或丢失。断电次数过多甚至会导致raid卡上的元器损坏。
|
1天前
|
存储 数据挖掘 Linux
服务器数据恢复—机房搬迁导致服务器无法识别raid的数据恢复案例
某单位机房搬迁,将所有服务器和存储搬迁到新机房并重新连接线路,启动所有机器发现其中有一台服务器无法识别RAID,提示未做初始化操作。 发生故障的这台服务器安装LINUX操作系统,配置了NFS+FTP作为单位内部的文件服务器使用。服务器为ProLiant DL380系列服务器,通过hp smart array控制器挂载了一组由14块SCSI硬盘组成的RAID5磁盘阵列。该raid5磁盘阵列采用双循环的校验方式。 北亚企安数据恢复工程师到达现场后对故障服务器进行了初检,经过检测发现raid信息丢失。
服务器数据恢复—机房搬迁导致服务器无法识别raid的数据恢复案例
|
11天前
|
存储 运维 Oracle
服务器数据恢复—S5300存储raid5磁盘阵列数据恢复案例
服务器存储数据恢复环境: 华为S5300存储中有一组由16块FC硬盘组建的RAID5磁盘阵列(包含一块热备盘)。 服务器存储故障: 该存储中的RAID5阵列1块硬盘由于未知原因离线,热备盘上线并开始同步数据,数据同步到50%左右时另外一块硬盘离线,同步失败,raid5阵列瘫痪,上层lun不可用。
服务器数据恢复—S5300存储raid5磁盘阵列数据恢复案例
|
10天前
|
数据挖掘
服务器数据恢复—RAID5阵列重建导致原raid数据丢失的数据恢复案例
一台服务器,有一组由5块硬盘组建的raid5磁盘阵列。 服务器在运行过程中一块有磁盘掉线,由于raid5阵列支持一块磁盘掉线的特性,服务器还在正常工作。不久之后服务器出现故障,管理员在不了解raid配置情况下,以原raid5阵列中的4块盘作为成员盘重建了raid5阵列。结果原raid5阵列中的全部数据丢失。
|
1月前
|
数据挖掘 数据库
服务器数据恢复—服务器raid磁盘故障离线导致阵列瘫痪的数据恢复案例
服务器数据恢复环境: 一台某品牌DL380服务器中3块SAS硬盘组建了一组raid。 服务器故障: RAID中多块磁盘出现故障离线导致RAID瘫痪,其中一块硬盘状态指示灯显示红色。服务器上运行的数据库在D分区,备份文件存放在E分区。由于RAID瘫痪,D分区无法识别,E分区可识别但是拷贝文件报错。管理员重启服务器,导致RAID中先离线的硬盘上线并开始同步数据,同步没有完成管理员意识到有问题,于是就强制关机了,之后就没有再动过服务器。
服务器数据恢复—服务器raid磁盘故障离线导致阵列瘫痪的数据恢复案例
|
21天前
|
存储 运维 Oracle
服务器数据恢复—存储中硬盘出现坏道离线导致存储不可用的数据恢复案例
服务器存储数据恢复环境: 某单位一台某品牌DS5300存储,1个机头+4个扩展柜,50块硬盘组建2组RAID5磁盘阵列(一组raid5阵列有27块成员盘,存放Oracle数据库文件;另外一组raid5阵列有23块成员盘)。存储系统上层一共分了11个卷。 服务器存储故障: 磁盘故障导致27盘RAID5阵列崩溃,存储不可用,该存储设备已经过保。
|
22天前
|
网络协议 网络架构
【网络编程入门】TCP与UDP通信实战:从零构建服务器与客户端对话(附简易源码,新手友好!)
在了解他们之前我们首先要知道网络模型,它分为两种,一种是OSI,一种是TCP/IP,当然他们的模型图是不同的,如下
|
22天前
|
存储 运维 Oracle
服务器数据恢复—DS4700存储中raid出现故障的数据恢复案例
一台某品牌DS4700存储中有14块硬盘组建raid,存放的是oracle数据库。存储中有两块硬盘的指示灯亮黄色,raid崩溃,卷无法挂载,业务全部瘫痪。
|
5天前
|
存储 Unix API
iSCSI SAN环境中的服务器如何获得新分配的磁盘卷
iSCSI SAN环境中的服务器如何获得新分配的磁盘卷
|
1月前
|
存储 算法 小程序
服务器数据恢复—OceanStor 5800存储磁盘阵列数据恢复案例
服务器存储数据恢复环境: 华为OceanStor 5800存储,该存储中有一组由10块硬盘组建的raid6磁盘阵列,供企业内部使用,服务器安装linux操作系统+EXT3文件系统,划分2个lun。 服务器存储故障: 管理员发现存储中raid6磁盘阵列不可用,于是将原raid6阵列中的磁盘作为成员盘重新分配raid,并对raid进行初始化。初始化进行到40%左右时,管理员意识到问题,于是强行终止初始化,部分数据已经被破坏,而且不可逆。 导致服务器存储中数据丢失的原因是raid失效,管理员将raid6阵列中的9块硬盘作为成员盘来重新分配riad5阵列,并进行了长时间的初始化操作,这个过程对原始数

热门文章

最新文章