服务器RAID磁盘坏道修复实战

简介:

上周在线监控系统nagios发送了一条报警警告短信,内容大体是磁盘阵列错误

于是乎登陆报警服务器使磁盘阵列检测工具进行了详细的检查,报告显示

Media Error Count :2

wKioL1LKY2qgMjG1AADzBR07ros581.jpg

既然是警告也就不是特别严重的错误,经过与戴尔工程师的确认,是磁盘出现了坏道,由于是图片服务器且有备份,暂时没有去机房处理。

过了两天又出现了另一台MySQL数据库服务器也发出了同样的警报,可怕的是通过检测报告的

Media Error Count :24

Other Error Count:2

wKioL1LKY3zCZGETAADnGsEVC0I742.jpg

看样子服务器在今年是硬件故障高发期啊,Dell服务器如果不是由厂家进货的话,如果你是维护的人员可就要当心了。

我说的什么意思你懂得!


    于是发邮件和总监和开发经理进行沟通,邮件中说了故障的详细情况,并且给出了当前的紧急解决措施(其中图片服务器做了文件的异机备份,数据库服务器由于是主从结构,这个不必太担心,切每天都有备份计划本地和异地)有一点服务器的磁盘是支持热插拔的,也就是说不用停机进行磁盘的更换是没有问题的,但是为了安全平稳经过沟通一致认为在晚上比较合适(其实这完全是没信心导致的,白天处理其实影响不大,可能就是会导致IO负载高一些),避开了业务高峰和访问高峰,这样给我们解决问题提供了充足的时间。

    最让我放心的是服务器的阵列配置是通过4块磁盘做的RAID5+hot spare 这样的配置有一个很大的好处就是: 如果正常的RAID5中的三块磁盘有任何一块损坏了,RAID阵列暂时是安全的

如果配置了热备盘,那么热备盘会在RAID阵列中某块磁盘算坏的时候进行替补,RAID阵列重建。 当损坏的磁盘更换后。 热备盘会识别到,然后将自身的数据与新替换的磁盘进行数据同步。当数据同步完成之后就会恢复到原来的角色-热备盘。 好神奇啊:)

     知道了阵列的工作原理也就不用担心了,第二天晚上按照事先计划好的方案进行

首先进行重要文件的手工备份以保持备份的最新,图片,数据库等备份到异地Ok

然后按照预先的计划,拔下故障磁盘,立即插入新的磁盘,这个时候,新插入磁盘会闪烁几秒钟,这个过程就是主板识别的过程,然后指示一直处于静止状态。

这个时候第四块硬盘也就是热备盘的数据读写灯狂闪,你应该猜到了,热备已经检测到有磁盘掉线了,然后就自动加入RAID进行重建,300G的容量大概重建完成用了30分钟的时间

为了验证我的想法,我把图片服务器进行了重启然后进入到BIOS里面的RAID卡配置工具里面进行查看,这个时候显示的是热备盘参与阵列进行重建,而替换的新磁盘状态是READY

等了大约30分钟后,RAID重建完成。 替换的新磁盘的状态马上就变成了 replacing 。这个过程大概同样需要30分钟左右。

在系统中进行检测磁盘的状态是 cpoyback。

最后正常的状态是 热备盘的角色恢复成热备模式,阵列完成重建,正常工作。

进入系统重新检测错误消失了

注:以上说道的在系统中检测的具体工具是:

/opt/MegaRAID/MegaCli/MegaCli64  -PDList -aAll

wKioL1LKY_ziQNtrAADYQdYbcLg815.jpg

wKiom1LKZAnyfL1VAADoBNlS8_o638.jpg





     本文转自andylhz 51CTO博客,原文链接:http://blog.51cto.com/andylhz2009/1348992,如需转载请自行联系原作者


相关文章
|
2月前
|
Oracle 关系型数据库 数据挖掘
服务器数据恢复—服务器RAID5磁盘阵列数据恢复案例
服务器数据恢复环境: 一台服务器上有一组由5块硬盘(4块数据盘+1块热备盘)组建的raid5阵列。服务器安装Linux Redhat操作系统,运行一套基于oracle数据库的OA系统。 服务器故障: 这组raid5阵列中一块磁盘离线,但是热备盘并没有自动激活rebuild,当另外一块数据盘发生故障离线后,raid崩溃。 用户方要求恢复raid数据,同时要求还原操作系统。经过初步观察,raid中的这些硬盘没有表现出存在明显的物理故障的特征,也没有明显的同步表现,数据恢复的可能性很大。
|
2月前
|
机器学习/深度学习 弹性计算 运维
云计算系列之阿里云ECS服务器管理实战
本文档介绍了阿里云ECS(Elastic Compute Service)的基本概念、实例管理、磁盘操作、快照与镜像功能及其应用场景,最后通过具体案例解析ECS的实际应用。ECS是阿里云提供的高效、可靠的云计算服务,支持多种业务需求,如Web应用、高并发网站、数据库等,帮助企业快速构建稳定安全的应用,提升运维效率,降低IT成本。文档还详细说明了ECS实例的创建方式、连接方法及日常管理操作,帮助用户更好地利用ECS服务。
74 2
云计算系列之阿里云ECS服务器管理实战
|
1月前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
280 2
|
3月前
|
存储 数据挖掘 数据库
服务器数据恢复—raid磁盘故障导致数据库数据损坏的数据恢复案例
存储中有一组由3块SAS硬盘组建的raid。上层win server操作系统层面划分了3个分区,数据库存放在D分区,备份存放在E分区。 RAID中一块硬盘的指示灯亮红色,D分区无法识别;E分区可识别,但是拷贝文件报错。管理员重启服务器,导致离线的硬盘上线开始同步数据,同步还没有完成就直接强制关机了,之后就没有动过服务器。
|
3月前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
170 5
|
2月前
|
存储 监控 Linux
充分利用服务器的磁盘资源,提高系统的稳定性和可维护性
充分利用服务器的磁盘资源,提高系统的稳定性和可维护性
38 0
|
17天前
|
人工智能 弹性计算 编解码
阿里云GPU云服务器性能、应用场景及收费标准和活动价格参考
GPU云服务器作为阿里云提供的一种高性能计算服务,通过结合GPU与CPU的计算能力,为用户在人工智能、高性能计算等领域提供了强大的支持。其具备覆盖范围广、超强计算能力、网络性能出色等优势,且计费方式灵活多样,能够满足不同用户的需求。目前用户购买阿里云gpu云服务器gn5 规格族(P100-16G)、gn6i 规格族(T4-16G)、gn6v 规格族(V100-16G)有优惠,本文为大家详细介绍阿里云gpu云服务器的相关性能及收费标准与最新活动价格情况,以供参考和选择。
|
22天前
|
机器学习/深度学习 人工智能 弹性计算
什么是阿里云GPU云服务器?GPU服务器优势、使用和租赁费用整理
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等多种场景。作为亚太领先的云服务提供商,阿里云的GPU云服务器具备灵活的资源配置、高安全性和易用性,支持多种计费模式,帮助企业高效应对计算密集型任务。
|
24天前
|
存储 分布式计算 固态存储
阿里云2核16G、4核32G、8核64G配置云服务器租用收费标准与活动价格参考
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8,这种配比的云服务器一般适用于数据分析与挖掘,Hadoop、Spark集群和数据库,缓存等内存密集型场景,因此,多为企业级用户选择。目前2核16G配置按量收费最低收费标准为0.54元/小时,按月租用标准收费标准为260.44元/1个月。4核32G配置的阿里云服务器按量收费标准最低为1.08元/小时,按月租用标准收费标准为520.88元/1个月。8核64G配置的阿里云服务器按量收费标准最低为2.17元/小时,按月租用标准收费标准为1041.77元/1个月。本文介绍这些配置的最新租用收费标准与活动价格情况,以供参考。
|
22天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU价格收费标准_GPU优势和使用说明
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等场景。作为亚太领先的云服务商,阿里云GPU云服务器具备高灵活性、易用性、容灾备份、安全性和成本效益,支持多种实例规格,满足不同业务需求。
127 2