Dell PowerEdge 2850 服务器 Raid5硬盘掉线解决一例

简介:
       今天有点儿时间,突然想起了刚来公司的时候,服务器的硬件就出现了一次故障,现在写下来给各位朋友们点儿经验分享

       记得那次是我这个岗位的人员离职走了之后,经理带我到机房熟悉一下环境,顺便把备份磁带更换一下(备份磁带还得手动换掉,我晕啊),由于进机房需要出入证件,我没有证件,就需要等内部的人员来接待,这时候也快到下班的时间了,经理说:小刘啊,你现在这等我吧,我进去先看一下,没事儿就不用进去了,下次再说吧,我说行吧。

   大约过了20分钟后经理从机房出来了,说小刘我看我们的数据库服务器前面板的LED的指示灯闪黄色警告,LED显示英文字母 “BP Driver 0 ” 同时有个硬盘的小指示灯也闪黄, 你回去查查这个原因是什么?
    坐在经理那陈旧的充满烟焦油味道的车厢中,我在思考这原因。没有头绪。回到家 Google 了一下,原来这个可能和硬盘有关系, 那个Driver 0  是不是硬盘在BIOS中的ID号? 出现问题了? 这台服务器用的是RAID5的阵列  坏了一块硬盘的话还是能继续服务的。(服务器的硬件是比较的老了 powerage 850的机器了)
    第二天早上早早的来到了办公室,打了Dell的售后技术支持,说明了情况,Dell的技术告诉我那是阵列里面的一块硬盘掉线了(果然是硬盘的问题),你把硬盘拔下来在插上就可以了,
这我就放心了,等经理来了和他说一下情况看看什么时候把这个问题处理一下。
    经理是个很小心谨慎的人,从来不愿意冒险去做事情,他了解了这个情况后说等等在处理吧,当前的业务量很大,那个库每天都在处理业务,找个时间在处理一下吧,(我晕倒)只好这样了,大约过了2周了,还是没出问题,我们在一次总结会中我提到了这个事情,经理说好吧,老这样拖下去也不是办法,决定在周六的早上去机房处理。
     周五通知了业务部门我们需要停机维护系统,一切准备做好。周六约好在机房见面。
     周六我准备一下相关的工具和资料早早的来到了机房,找到显示器,鼠标键盘等。(机房的技术不知道干嘛去了,要什么都得自己动手),接上显示器,键盘,鼠标,登录系统,看着那黄色的警告,心理默默地祈祷,不要出事儿:) 按照先前和精力商量好的流程,先备份数据库的数据,关闭数据库,执行热插拔硬盘。糟糕了,没有把密码带来,一身冷汗(这么粗心大意呢),打电话给经理吧。 

电话接通了:领导您啥时到机房啊,我忘记带密码了! 经理在电话那头嚷道: 什么都不带,来干吗啊! 我恨自己咋那么粗心呢?
等我过去吧! 好的! 挂断电话我等待着经理的到来
 一会儿领导来了,有训斥了我一顿,以后做事儿细心点儿啊,别那粗心大意的!我答应着。
按照先前的流程先登录系统将数据库全备,使用RMAN 物理备份一份,备份的时间比较长,等吧,经理外边出去抽烟去了,我在旁边等着备份完成,大约20分钟后备份完成了。
好了第二步,关闭数据库
第三步,吧友问题的那块硬盘从前面板拔出在插入进去(服务器硬盘支持热插拔的)。这时候前面板的LED指示屏的闪烁变成了正常的蓝色,错误提示消失。
这时候已经是没有问题了,为了进一步确认没有后顾之忧,我们还是将系统重启了一下,启动之后一切正常
第四步,将数据实例启动,没有错误,登录网站测试没有问题,这次就这么解决了这个问题。

这次遇到的硬盘掉线问题,据我的经验应该是服务器的长期运行,机箱共振引起了硬盘接口的松动,或者机房的温度差别变化引起硬件热胀冷缩引起的。当然也不排除人为的原因。

解决了这次故障,我总结了一下:
任何故障出现之前根据其现象找原因,再就是咨询相关硬件厂商的售后工程师,他们接到的故障报修是最多的,会很快给你一个方向,指出问题大概的原因。
还有就是个人问题了,不能粗心大意,去机房维护,要把可能发生的事情都想到了。

 

     本文转自andylhz 51CTO博客,原文链接:http://blog.51cto.com/andylhz2009/407239,如需转载请自行联系原作者


相关文章
|
23天前
|
运维 数据挖掘 开发工具
服务器数据恢复—硬盘离线导致raid5阵列热备盘上线失败的数据恢复案例
服务器磁盘阵列数据恢复环境: 服务器中有两组分别由4块SAS硬盘组建的raid5磁盘阵列,两组raid5阵列划分LUN,组成LVM结构,格式化为EXT3文件系统。 服务器磁盘阵列故障: 服务器中一组raid5阵列中有一块硬盘离线,热备盘自动上线替换离线硬盘。热备盘上线同步数据过程中又有一块硬盘离线,热备盘同步失败,该组raid5阵列崩溃,LVM结构变得不完整,文件系统无法使用。 硬件工程师对两块离线硬盘进行硬件故障检测,发现先离线硬盘无法识别,初步判断该硬盘存在硬件故障,需要进行开盘修复。后离线硬盘可以正常识别。
服务器数据恢复—硬盘离线导致raid5阵列热备盘上线失败的数据恢复案例
|
2天前
|
存储 数据挖掘 虚拟化
服务器数据恢复—Raid5阵列两块硬盘硬件故障掉线的数据恢复案例
服务器数据恢复环境: 一台某品牌存储设备上有一组由10块硬盘(9块数据盘+1块热备盘)组建的raid5阵列,上层部署vmware exsi虚拟化平台。 服务器故障: raid5阵列中两块硬盘对应的指示灯亮黄灯掉线。硬盘序列号无法读取,通过SAS扩展卡也无法读取。
|
14天前
|
存储 Oracle 关系型数据库
服务器数据恢复—存储硬盘故障导致映射到服务器上的卷挂载不上的数据恢复案例
一台存储上有一组由16块FC硬盘组建了一组raid。存储前面板上的对应10号和13号硬盘的故障灯亮起,存储映射到redhat linux操作系统服务器上的卷挂载不上,业务中断。
|
1月前
|
存储 运维 小程序
服务器数据恢复—双循环RAID5阵列数据恢复案例
服务器存储数据恢复环境: 一台存储中有一组由7块硬盘组建的RAID5阵列,存储中还有另外3块盘是raid中掉线的硬盘(硬盘掉线了,管理员只是添加一块的新的硬盘做rebuild,并没有将掉线的硬盘拔掉)。整个RAID5阵列的存储空间划分了一个LUN。 服务器存储故障: 硬盘出现故障导致存储中阵列瘫痪。 和管理员沟通,据管理员说是磁盘阵列中某些硬盘出现故障导致存储不可用,初步判断RAID中有硬盘掉线了。
|
2月前
|
SQL 数据库 数据安全/隐私保护
服务器数据恢复—raid5阵列故障因操作不当导致数据无法恢复的案例
服务器数据恢复环境: 一台服务器中有一组由4块SCSI硬盘组建的raid5磁盘阵列,划分了一个逻辑卷,操作系统为WINDOWS SERVER,作为SQL SERVER服务器使用。 服务器故障: 运行过程中该服务器raid5磁盘阵列瘫痪,管理员检查服务器发现raid5阵列中已经有3块磁盘离线。管理员选择其中2块离线硬盘进行强制上线操作,强制上线后操作系统无法启动。使用WINPE光盘启动操作系统后,可以看到数据。
|
1月前
|
Cloud Native Java 编译器
将基于x86架构平台的应用迁移到阿里云倚天实例云服务器参考
随着云计算技术的不断发展,云服务商们不断推出高性能、高可用的云服务器实例,以满足企业日益增长的计算需求。阿里云推出的倚天实例,凭借其基于ARM架构的倚天710处理器,提供了卓越的计算能力和能效比,特别适用于云原生、高性能计算等场景。然而,有的用户需要将传统基于x86平台的应用迁移到倚天实例上,本文将介绍如何将基于x86架构平台的应用迁移到阿里云倚天实例的服务器上,帮助开发者和企业用户顺利完成迁移工作,享受更高效、更经济的云服务。
将基于x86架构平台的应用迁移到阿里云倚天实例云服务器参考
|
2天前
|
运维 负载均衡 Linux
阿里云轻量服务器最新收费标准与价格参考
阿里云轻量服务器具有灵活的镜像选择、快速上手、简便运维等优势,轻量服务器适合个人开发者和学生用来搭建网站、云端学习等场景使用,2024年截至目前国内地域有60元/月、80元/月等套餐可选,国外地域有24元/月、34元/月、67元/月等套餐可选,目前轻量应用服务器2核2G3M带宽82元1年、2核4G4M带宽298元1年。
|
29天前
|
编解码 前端开发 安全
通过阿里云的活动购买云服务器时如何选择实例、带宽、云盘
在我们选购阿里云服务器的过程中,不管是新用户还是老用户通常都是通过阿里云的活动去买了,一是价格更加实惠,二是活动中的云服务器配置比较丰富,足可以满足大部分用户的需求,但是面对琳琅满目的云服务器实例、带宽和云盘选项,如何选择更适合自己,成为许多用户比较关注的问题。本文将介绍如何在阿里云的活动中选择合适的云服务器实例、带宽和云盘,以供参考和选择。
通过阿里云的活动购买云服务器时如何选择实例、带宽、云盘
|
28天前
|
弹性计算 运维 安全
阿里云轻量应用服务器和经济型e实例区别及选择参考
目前在阿里云的活动中,轻量应用服务器2核2G3M带宽价格为82元1年,2核2G3M带宽的经济型e实例云服务器价格99元1年,对于云服务器配置和性能要求不是很高的阿里云用户来说,这两款服务器配置和价格都差不多,阿里云轻量应用服务器和ECS云服务器让用户二选一,很多用户不清楚如何选择,本文来说说轻量应用服务器和经济型e实例的区别及选择参考。
阿里云轻量应用服务器和经济型e实例区别及选择参考
|
29天前
|
机器学习/深度学习 存储 人工智能
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考
阿里云的GPU云服务器产品线在深度学习、科学计算、图形渲染等多个领域展现出强大的计算能力和广泛的应用价值。本文将详细介绍阿里云GPU云服务器中的gn6v、gn7i、gn6i三个实例规格族的性能特点、区别及选择参考,帮助用户根据自身需求选择合适的GPU云服务器实例。
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考