Dell PowerEdge 2850 服务器 Raid5硬盘掉线解决一例

简介:
       今天有点儿时间,突然想起了刚来公司的时候,服务器的硬件就出现了一次故障,现在写下来给各位朋友们点儿经验分享

       记得那次是我这个岗位的人员离职走了之后,经理带我到机房熟悉一下环境,顺便把备份磁带更换一下(备份磁带还得手动换掉,我晕啊),由于进机房需要出入证件,我没有证件,就需要等内部的人员来接待,这时候也快到下班的时间了,经理说:小刘啊,你现在这等我吧,我进去先看一下,没事儿就不用进去了,下次再说吧,我说行吧。

   大约过了20分钟后经理从机房出来了,说小刘我看我们的数据库服务器前面板的LED的指示灯闪黄色警告,LED显示英文字母 “BP Driver 0 ” 同时有个硬盘的小指示灯也闪黄, 你回去查查这个原因是什么?
    坐在经理那陈旧的充满烟焦油味道的车厢中,我在思考这原因。没有头绪。回到家 Google 了一下,原来这个可能和硬盘有关系, 那个Driver 0  是不是硬盘在BIOS中的ID号? 出现问题了? 这台服务器用的是RAID5的阵列  坏了一块硬盘的话还是能继续服务的。(服务器的硬件是比较的老了 powerage 850的机器了)
    第二天早上早早的来到了办公室,打了Dell的售后技术支持,说明了情况,Dell的技术告诉我那是阵列里面的一块硬盘掉线了(果然是硬盘的问题),你把硬盘拔下来在插上就可以了,
这我就放心了,等经理来了和他说一下情况看看什么时候把这个问题处理一下。
    经理是个很小心谨慎的人,从来不愿意冒险去做事情,他了解了这个情况后说等等在处理吧,当前的业务量很大,那个库每天都在处理业务,找个时间在处理一下吧,(我晕倒)只好这样了,大约过了2周了,还是没出问题,我们在一次总结会中我提到了这个事情,经理说好吧,老这样拖下去也不是办法,决定在周六的早上去机房处理。
     周五通知了业务部门我们需要停机维护系统,一切准备做好。周六约好在机房见面。
     周六我准备一下相关的工具和资料早早的来到了机房,找到显示器,鼠标键盘等。(机房的技术不知道干嘛去了,要什么都得自己动手),接上显示器,键盘,鼠标,登录系统,看着那黄色的警告,心理默默地祈祷,不要出事儿:) 按照先前和精力商量好的流程,先备份数据库的数据,关闭数据库,执行热插拔硬盘。糟糕了,没有把密码带来,一身冷汗(这么粗心大意呢),打电话给经理吧。 

电话接通了:领导您啥时到机房啊,我忘记带密码了! 经理在电话那头嚷道: 什么都不带,来干吗啊! 我恨自己咋那么粗心呢?
等我过去吧! 好的! 挂断电话我等待着经理的到来
 一会儿领导来了,有训斥了我一顿,以后做事儿细心点儿啊,别那粗心大意的!我答应着。
按照先前的流程先登录系统将数据库全备,使用RMAN 物理备份一份,备份的时间比较长,等吧,经理外边出去抽烟去了,我在旁边等着备份完成,大约20分钟后备份完成了。
好了第二步,关闭数据库
第三步,吧友问题的那块硬盘从前面板拔出在插入进去(服务器硬盘支持热插拔的)。这时候前面板的LED指示屏的闪烁变成了正常的蓝色,错误提示消失。
这时候已经是没有问题了,为了进一步确认没有后顾之忧,我们还是将系统重启了一下,启动之后一切正常
第四步,将数据实例启动,没有错误,登录网站测试没有问题,这次就这么解决了这个问题。

这次遇到的硬盘掉线问题,据我的经验应该是服务器的长期运行,机箱共振引起了硬盘接口的松动,或者机房的温度差别变化引起硬件热胀冷缩引起的。当然也不排除人为的原因。

解决了这次故障,我总结了一下:
任何故障出现之前根据其现象找原因,再就是咨询相关硬件厂商的售后工程师,他们接到的故障报修是最多的,会很快给你一个方向,指出问题大概的原因。
还有就是个人问题了,不能粗心大意,去机房维护,要把可能发生的事情都想到了。

 

     本文转自andylhz 51CTO博客,原文链接:http://blog.51cto.com/andylhz2009/407239,如需转载请自行联系原作者


相关文章
|
22天前
|
存储 Linux 数据库
服务器数据恢复—raid5阵列中多块硬盘出现坏道的数据恢复案例
服务器存储数据恢复环境: 某品牌DS3512存储中有一组由6块SAS磁盘组建的raid5阵列。划分一个lun分配给Linux系统服务器,并格式化成ocfs2文件系统,共享给虚拟化使用,存放虚拟机文件。 存储中的数据包括:数十台iunx系统虚拟机和windows系统虚拟机、压缩包文件、配置文件。 服务器存储故障: raid5阵列中多块硬盘出现问题,阵列崩溃,数据丢失。
|
17天前
|
数据挖掘 索引
服务器数据恢复—raid6阵列硬盘故障导致上层虚拟机不可用的数据恢复案例
一台由16块硬盘组成的raid6磁盘阵列。磁盘阵列中有一块硬盘因为物理故障掉线,导致服务器上层虚拟机无法正常使用,部分分区丢失,重启物理服务器后发现数据丢失。
|
1月前
|
存储 运维
服务器数据恢复—服务器raid5阵列中硬盘离线的数据恢复案例
某公司一台服务器中有一组多块硬盘组成的磁盘阵列。磁盘阵列中有2块硬盘出现故障离线,服务器崩溃,上层数据丢失。
|
23天前
|
存储 运维 数据挖掘
服务器数据恢复—Raid5磁盘阵列数据恢复案例
服务器数据恢复环境: 某公司一台存储上有一组由15块硬盘组建的raid5阵列。raid5阵列上层是一个xfs裸分区,起始位置是0扇区。 服务器故障: raid5阵列中有一块硬盘出现故障掉线,热备盘自动上线同步数据,数据同步还没有完成的情况下磁盘阵列中又有一块硬盘掉线,数据同步过程中断,阵列崩溃。
|
22天前
|
存储 缓存 网络协议
阿里云特惠云服务器99元与199元配置与性能和适用场景解析:高性价比之选
2025年,阿里云长效特惠活动继续推出两款极具吸引力的特惠云服务器套餐:99元1年的经济型e实例2核2G云服务器和199元1年的通用算力型u1实例2核4G云服务器。这两款云服务器不仅价格亲民,而且性能稳定可靠,为入门级用户和普通企业级用户提供了理想的选择。本文将对这两款云服务器进行深度剖析,包括配置介绍、实例规格、使用场景、性能表现以及购买策略等方面,帮助用户更好地了解这两款云服务器,以供参考和选择。
|
1月前
|
域名解析 人工智能 弹性计算
DeepSeek服务器繁忙解决方法:使用阿里云一键部署DeepSeek个人网站!
通过阿里云一键部署DeepSeek个人网站,解决服务器繁忙问题。学生用户可领取300元代金券实现0成本部署,普通用户则可用99元/年的服务器。教程涵盖从选择套餐、设置密码到获取百炼API-KEY的全流程,助您快速搭建专属大模型主页,体验DeepSeek、Qwen-max、Llama等多款模型,无需代码,最快5分钟完成部署。支持绑定个人域名,共享亲友使用,日均成本仅约1元。
132 10
|
2天前
|
安全 Linux
阿里云linux服务器使用脚本通过安全组屏蔽异常海外访问ip
公网网站可能会遭受黑客攻击导致访问异常,使用此脚本可以屏蔽掉异常IP 恢复访问。也可自行设置定时任务定期检测屏蔽。
78 28
|
4天前
|
存储 机器学习/深度学习 人工智能
阿里云第八代云服务器c8i与g8i深度解析:技术对比、场景适配与选购指南
阿里云服务器计算型c8i与通用型g8i实例属于阿里云的第八代云服务器实例规格,是除了计算型c7与c8y和通用型g7与g8y之外同样深受用户喜欢的云服务器实例规格。本文将详细解析计算型c8i与通用型g8i实例的技术特性、适用场景、性能优势,以及最新的活动价格情况,并为用户提供购买建议。
|
1月前
|
弹性计算 运维 监控
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
本文介绍了如何通过阿里云获取ECS云服务器并进行操作系统配置与组件安装,以实现高效的资源管理和系统监控。阿里云凭借强大的基础设施和丰富的服务成为用户首选。文中详细描述了获取ECS、RAM授权、开通操作系统控制台及组件安装的步骤,并展示了如何利用控制台实时监控性能指标、诊断系统问题及优化性能。特别针对idle进程进行了深入分析,提出了优化建议。最后,建议定期进行系统健康检查,并希望阿里云能推出更友好的低成本套餐,满足学生等群体的需求。
138 17
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
|
9天前
|
自然语言处理 大数据 云计算
「轻」启未来:阿里云轻量应用服务器用户交流会
扫描海报二维码报名,赢取百元代金券!

热门文章

最新文章