开发者社区> 技术小胖子> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

服务器RAID磁盘坏道修复实战

简介:
+关注继续查看

上周在线监控系统nagios发送了一条报警警告短信,内容大体是磁盘阵列错误

于是乎登陆报警服务器使磁盘阵列检测工具进行了详细的检查,报告显示

Media Error Count :2

wKioL1LKY2qgMjG1AADzBR07ros581.jpg

既然是警告也就不是特别严重的错误,经过与戴尔工程师的确认,是磁盘出现了坏道,由于是图片服务器且有备份,暂时没有去机房处理。

过了两天又出现了另一台MySQL数据库服务器也发出了同样的警报,可怕的是通过检测报告的

Media Error Count :24

Other Error Count:2

wKioL1LKY3zCZGETAADnGsEVC0I742.jpg

看样子服务器在今年是硬件故障高发期啊,Dell服务器如果不是由厂家进货的话,如果你是维护的人员可就要当心了。

我说的什么意思你懂得!


    于是发邮件和总监和开发经理进行沟通,邮件中说了故障的详细情况,并且给出了当前的紧急解决措施(其中图片服务器做了文件的异机备份,数据库服务器由于是主从结构,这个不必太担心,切每天都有备份计划本地和异地)有一点服务器的磁盘是支持热插拔的,也就是说不用停机进行磁盘的更换是没有问题的,但是为了安全平稳经过沟通一致认为在晚上比较合适(其实这完全是没信心导致的,白天处理其实影响不大,可能就是会导致IO负载高一些),避开了业务高峰和访问高峰,这样给我们解决问题提供了充足的时间。

    最让我放心的是服务器的阵列配置是通过4块磁盘做的RAID5+hot spare 这样的配置有一个很大的好处就是: 如果正常的RAID5中的三块磁盘有任何一块损坏了,RAID阵列暂时是安全的

如果配置了热备盘,那么热备盘会在RAID阵列中某块磁盘算坏的时候进行替补,RAID阵列重建。 当损坏的磁盘更换后。 热备盘会识别到,然后将自身的数据与新替换的磁盘进行数据同步。当数据同步完成之后就会恢复到原来的角色-热备盘。 好神奇啊:)

     知道了阵列的工作原理也就不用担心了,第二天晚上按照事先计划好的方案进行

首先进行重要文件的手工备份以保持备份的最新,图片,数据库等备份到异地Ok

然后按照预先的计划,拔下故障磁盘,立即插入新的磁盘,这个时候,新插入磁盘会闪烁几秒钟,这个过程就是主板识别的过程,然后指示一直处于静止状态。

这个时候第四块硬盘也就是热备盘的数据读写灯狂闪,你应该猜到了,热备已经检测到有磁盘掉线了,然后就自动加入RAID进行重建,300G的容量大概重建完成用了30分钟的时间

为了验证我的想法,我把图片服务器进行了重启然后进入到BIOS里面的RAID卡配置工具里面进行查看,这个时候显示的是热备盘参与阵列进行重建,而替换的新磁盘状态是READY

等了大约30分钟后,RAID重建完成。 替换的新磁盘的状态马上就变成了 replacing 。这个过程大概同样需要30分钟左右。

在系统中进行检测磁盘的状态是 cpoyback。

最后正常的状态是 热备盘的角色恢复成热备模式,阵列完成重建,正常工作。

进入系统重新检测错误消失了

注:以上说道的在系统中检测的具体工具是:

/opt/MegaRAID/MegaCli/MegaCli64  -PDList -aAll

wKioL1LKY_ziQNtrAADYQdYbcLg815.jpg

wKiom1LKZAnyfL1VAADoBNlS8_o638.jpg





     本文转自andylhz 51CTO博客,原文链接:http://blog.51cto.com/andylhz2009/1348992,如需转载请自行联系原作者


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
云服务器esc使用过程及体验
在云服务器esc体验期内,学习了云服务器相关功能及操作,并且通过学习搭建云简历初步掌握了网站的搭建。分享了一些在近期半个多月内的云服务器使用体验以及今后的期望。
17 0
最好用的云服务器,没有之一!
一名计算机研究生捣鼓后的感悟!
58 0
阿里云飞天计划云服务器体验————物联网mqtt服务器搭建初体验
如今物联网,智能家居等应用十分广泛,服务器是必不可少的,而物联网协议之一的mqtt协议的十分受欢迎,也是特别的容易上手,本文基于阿里云服务器,搭建mqtt客户端和体验其使用,并粗略的体验其是否能够稳定运行,在无连接状态下能够运行多久。
408 0
MC原版服务器搭建教程
前言 本教程适用于有自己的服务器并希望和好友进行原版MC游戏的人使用(正版盗版通用) 本教程完成后将建立一个完全纯净,无法添加任何mod的服务器,请酌情阅读 准备 一枚可以正常访问的服务器 本教程使用腾讯云主机进行演示 官方提供的服务器...
4119 0
服务器组装RAID5 磁盘阵列
最近服务器出了点小问题,需要重做Raid,在网上找了一篇文章,感觉挺仔细的,拿来分享一下。等服务器重装了,也要记录一下,再跟大家分享。 硬件raid5组建:   最近又亲手给一个朋友组装了一台采用双核心P4 820D处理器的8硬盘的1U机架式存储型服务器,在组装过程中,分别组建了硬件Raid5和软件Raid5的磁盘阵列,过程很值得玩味,现在写出详细的设置过程,以期抛砖引玉,给大家带来更多一点启发。
2077 0
文章
问答
文章排行榜
最热
最新
相关电子书
更多
挑战双11实时数据洪峰的流计算实践
立即下载
Spring Boot2.0实战Redis分布式缓存
立即下载
阿里云IoT芯片模组合作之美
立即下载