Dell PowerEdge 2850 服务器 Raid5硬盘掉线解决一例

简介:
       今天有点儿时间,突然想起了刚来公司的时候,服务器的硬件就出现了一次故障,现在写下来给各位朋友们点儿经验分享

       记得那次是我这个岗位的人员离职走了之后,经理带我到机房熟悉一下环境,顺便把备份磁带更换一下(备份磁带还得手动换掉,我晕啊),由于进机房需要出入证件,我没有证件,就需要等内部的人员来接待,这时候也快到下班的时间了,经理说:小刘啊,你现在这等我吧,我进去先看一下,没事儿就不用进去了,下次再说吧,我说行吧。

   大约过了20分钟后经理从机房出来了,说小刘我看我们的数据库服务器前面板的LED的指示灯闪黄色警告,LED显示英文字母 “BP Driver 0 ” 同时有个硬盘的小指示灯也闪黄, 你回去查查这个原因是什么?
    坐在经理那陈旧的充满烟焦油味道的车厢中,我在思考这原因。没有头绪。回到家 Google 了一下,原来这个可能和硬盘有关系, 那个Driver 0  是不是硬盘在BIOS中的ID号? 出现问题了? 这台服务器用的是RAID5的阵列  坏了一块硬盘的话还是能继续服务的。(服务器的硬件是比较的老了 powerage 850的机器了)
    第二天早上早早的来到了办公室,打了Dell的售后技术支持,说明了情况,Dell的技术告诉我那是阵列里面的一块硬盘掉线了(果然是硬盘的问题),你把硬盘拔下来在插上就可以了,
这我就放心了,等经理来了和他说一下情况看看什么时候把这个问题处理一下。
    经理是个很小心谨慎的人,从来不愿意冒险去做事情,他了解了这个情况后说等等在处理吧,当前的业务量很大,那个库每天都在处理业务,找个时间在处理一下吧,(我晕倒)只好这样了,大约过了2周了,还是没出问题,我们在一次总结会中我提到了这个事情,经理说好吧,老这样拖下去也不是办法,决定在周六的早上去机房处理。
     周五通知了业务部门我们需要停机维护系统,一切准备做好。周六约好在机房见面。
     周六我准备一下相关的工具和资料早早的来到了机房,找到显示器,鼠标键盘等。(机房的技术不知道干嘛去了,要什么都得自己动手),接上显示器,键盘,鼠标,登录系统,看着那黄色的警告,心理默默地祈祷,不要出事儿:) 按照先前和精力商量好的流程,先备份数据库的数据,关闭数据库,执行热插拔硬盘。糟糕了,没有把密码带来,一身冷汗(这么粗心大意呢),打电话给经理吧。 

电话接通了:领导您啥时到机房啊,我忘记带密码了! 经理在电话那头嚷道: 什么都不带,来干吗啊! 我恨自己咋那么粗心呢?
等我过去吧! 好的! 挂断电话我等待着经理的到来
 一会儿领导来了,有训斥了我一顿,以后做事儿细心点儿啊,别那粗心大意的!我答应着。
按照先前的流程先登录系统将数据库全备,使用RMAN 物理备份一份,备份的时间比较长,等吧,经理外边出去抽烟去了,我在旁边等着备份完成,大约20分钟后备份完成了。
好了第二步,关闭数据库
第三步,吧友问题的那块硬盘从前面板拔出在插入进去(服务器硬盘支持热插拔的)。这时候前面板的LED指示屏的闪烁变成了正常的蓝色,错误提示消失。
这时候已经是没有问题了,为了进一步确认没有后顾之忧,我们还是将系统重启了一下,启动之后一切正常
第四步,将数据实例启动,没有错误,登录网站测试没有问题,这次就这么解决了这个问题。

这次遇到的硬盘掉线问题,据我的经验应该是服务器的长期运行,机箱共振引起了硬盘接口的松动,或者机房的温度差别变化引起硬件热胀冷缩引起的。当然也不排除人为的原因。

解决了这次故障,我总结了一下:
任何故障出现之前根据其现象找原因,再就是咨询相关硬件厂商的售后工程师,他们接到的故障报修是最多的,会很快给你一个方向,指出问题大概的原因。
还有就是个人问题了,不能粗心大意,去机房维护,要把可能发生的事情都想到了。

 

     本文转自andylhz 51CTO博客,原文链接:http://blog.51cto.com/andylhz2009/407239,如需转载请自行联系原作者


相关文章
|
10天前
|
存储 Oracle 关系型数据库
服务器数据恢复—EVA存储硬盘读写性能不稳定掉线的数据恢复案例
服务器存储数据恢复环境: 一台EVA某型号控制器+EVA扩展柜+FC磁盘。 服务器存储故障&检测: 磁盘故障导致该EVA存储中LUN不可用,导致上层应用无法正常使用。
74 47
|
12天前
|
存储 数据挖掘
服务器数据恢复—EqualLogic存储raid5阵列多块硬盘掉线的数据恢复案例
服务器存储数据恢复环境: 一台EqualLogic存储中有一组由16块SAS硬盘组建的RAID5阵列。上层划分了4个卷,采用VMFS文件系统,存放虚拟机文件。 服务器存储故障: 存储RAID5阵列中磁盘出现故障,有2块硬盘对应的指示灯亮黄灯,存储不可用,且存储设备已经过保。
|
15天前
|
存储 Unix Linux
服务器数据恢复—DELL EqualLogic PS6100系列存储简介及发生故障后的处理方案
DELL EqualLogic PS6100系列存储采用虚拟ISCSI SAN阵列,支持VMware、Solaris、Linux、Mac、HP-UX、AIX操作系统,提供全套企业级数据保护和管理功能,具有可扩展性和容错功能。
|
17天前
|
存储 数据挖掘
服务器数据恢复—用RAID5阵列中部分盘重建RAID5如何恢复原raid5阵列数据?
服务器数据恢复环境: 一台服务器挂接一台存储,该存储中有一组由5块硬盘组建的RAID5阵列。 服务器故障: 存储raid5阵列中有一块硬盘掉线。由于RAID5的特性,阵列并没有出现问题。工作一段时间后,服务器出现故障,用户方请人维修。维修人员在没有了解故障磁盘阵列环境的情况下,用另外4块硬盘(除去掉线的硬盘)重新创建了一组全新的RAID5阵列并完成数据同步,导致原raid5阵列数据全部丢失。
|
29天前
|
运维 Oracle 关系型数据库
服务器数据恢复—浪潮服务器硬盘出现坏道的数据恢复案例
服务器数据恢复环境: 一台浪潮服务器中有一组由6块SAS硬盘组建的RAID。服务器上划分了1个卷,存放Oracle数据库文件。 服务器故障&检测: 服务器上有两个硬盘指示灯亮黄灯,RAID崩溃,服务器不可用。 将故障服务器中所有磁盘标记后取出。由硬件工程师检测故障服务器上的取出的6块硬盘是否存在硬件故障,经过检测发现变黄的指示灯所对应的2块硬盘存在坏道且SMART的错误冗余级别已经超过阈值。
|
2天前
|
存储 分布式计算 固态存储
阿里云2核16G、4核32G、8核64G配置云服务器租用收费标准与活动价格参考
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8,这种配比的云服务器一般适用于数据分析与挖掘,Hadoop、Spark集群和数据库,缓存等内存密集型场景,因此,多为企业级用户选择。目前2核16G配置按量收费最低收费标准为0.54元/小时,按月租用标准收费标准为260.44元/1个月。4核32G配置的阿里云服务器按量收费标准最低为1.08元/小时,按月租用标准收费标准为520.88元/1个月。8核64G配置的阿里云服务器按量收费标准最低为2.17元/小时,按月租用标准收费标准为1041.77元/1个月。本文介绍这些配置的最新租用收费标准与活动价格情况,以供参考。
|
8天前
|
弹性计算
阿里云2核16G服务器多少钱一年?亲测价格查询1个月和1小时收费标准
阿里云2核16G服务器提供多种ECS实例规格,内存型r8i实例1年6折优惠价为1901元,按月收费334.19元,按小时收费0.696221元。更多规格及详细报价请访问阿里云ECS页面。
40 9
|
5天前
|
监控 Ubuntu Linux
使用VSCode通过SSH远程登录阿里云Linux服务器异常崩溃
通过 VSCode 的 Remote - SSH 插件远程连接阿里云 Ubuntu 22 服务器时,会因高 CPU 使用率导致连接断开。经排查发现,VSCode 连接根目录 ".." 时会频繁调用"rg"(ripgrep)进行文件搜索,导致 CPU 负载过高。解决方法是将连接目录改为"root"(或其他具体的路径),避免不必要的文件检索,从而恢复正常连接。
|
8天前
|
弹性计算 异构计算
2024年阿里云GPU服务器多少钱1小时?亲测价格查询方法
2024年阿里云GPU服务器每小时收费因实例规格不同而异。可通过阿里云GPU服务器页面选择“按量付费”查看具体价格。例如,NVIDIA A100的gn7e实例为34.742元/小时,NVIDIA A10的gn7i实例为12.710156元/小时。更多详情请访问阿里云官网。
43 2
|
14天前
|
存储 弹性计算 NoSQL
"从入门到实践,全方位解析云服务器ECS的秘密——手把手教你轻松驾驭阿里云的强大计算力!"
【10月更文挑战第23天】云服务器ECS(Elastic Compute Service)是阿里云提供的基础云计算服务,允许用户在云端租用和管理虚拟服务器。ECS具有弹性伸缩、按需付费、简单易用等特点,适用于网站托管、数据库部署、大数据分析等多种场景。本文介绍ECS的基本概念、使用场景及快速上手指南。
53 3
下一篇
无影云桌面