EVENT LOG指示灯报警
有台IBM服务器前面的光通路面板开始亮起了小黄灯,推出这个小盒子一看,是EVENT LOG指示灯报警。一时不知道是什么原因,可能是日志错误,要进Configuration 去调一下,于是打800电话,硬件工程师听了我的问题后,说应该是日志文件满了,应清空一下,开机启动时,看到提示按F1进Configuration中把两个日志文件都清一下,我问怎么会满呢?他说只能存512条日志文件,多了就因覆盖不了前面的日志文件而报警,按他的方法在F1进入的 Configuration/Setup Utility中,选择POST Error Log选项后,直接回车选择Clear error logs清除所有的自检日志,同样选择System Error Log,直接回车选择Clear error logs清除所有的系统日志,一切OK(注:不同机型可以会略有不同,如3550只有system Error log选项,如果清除完后仍亮黄灯,建议断电几分钟再开机试试,如果问题还没有解决,那可能是硬件有问题了,请跟IBM售后联系!)。
PS2指示灯报警
IBM的解释是这个PS2不是PS2接口,而是服务器电源
DASD指示灯报警
7月21日下午检查机房设备时,发现一台IBM x3650服务器0号硬盘黄灯闪烁,前面板“!”红色警示灯亮,操作系统运行正常。打开“Light Path“面板,发现”DASD“灯亮,上网搜索了一下得知DASD(Direct Access Storage Device)灯亮是硬盘背板故障。这台服务器才运行一年多时间啊,不会这么快就坏吧。赶紧拨打IBM 800报修电话,描述完故障,客服人员做好记录后说呆会有工程师回电。可1个多小时过去了还没接到回电(当时心里不是很爽),于是又拨通了IBM报修热线,这回接电话的是另外一位工程师,了解故障情况后,答复:黄灯闪烁是硬盘在同步数据,同步完成会熄灭,DASD灯亮需作测试报告以进一步确定故障原因,有可能要对机器作微码升级,让我先做好数据备份,并将测试步骤以及所需测试软件发到我的邮箱。
下午快下班的时候,0号硬盘黄色故障灯果然熄灭恢复正常,但DASD故障灯仍亮,这样看来,0号硬盘本身应该没什么问题,故障可能真的出在硬盘背板上。不管怎么样,先将数据备份至另外一台服务器上。备完数据,按照IBM邮件里的处理步骤,进行DSA动态系统诊断,并将生成的诊断报告回复给IBM。
7月23日下午3:30,BE准时到现场。我询问到底是什么故障?答复升级微码后应该能解决问题,至于要不要更换硬盘背板还要看升级后的情况。接下去就是一系列的微码升级工作,包括主板BIOS、RAID卡等等。升级完成后,DASD故障灯果然熄灭,服务器看似恢复正常了。由于此前0号硬盘有报警,于是按Ctrl+A进入Array Controller对0号硬盘进行扫描检测,结果一切正常,排除了硬盘故障。硬盘背板是否正常,现在也不能下定论,工程师让我再观察几天,暂时不换备件。
下午2点,BE带着备件准时到场重新接回线缆、盖上机盖、开机、进入系统,一切常, 故障排除了,也留下许多疑问。如果确实是硬盘背板问题,为什么微码升级过后就恢复正常了?如果背板是好的只是单纯微码升级问题,为什么故障在机器运行一年多后才出现?这些疑问BE没有当场给我答复,让人纳闷。希望有同样经历的朋友互相交流!
ps 指示灯:当此指示灯发亮时,表明电源2 出现故障。
temp 指示灯:当此指示灯发亮时,表明系统温度超出阈值级别。
fan:当此指示灯点亮时,表明散热风扇或电源风扇出现故障或运行太慢。风扇发生故障还会导致over temp 指示灯发亮。
link指示灯:当此指示灯发亮时,网卡出现故障。
vrm 指示灯:当此指示灯发亮时,表明微处理器托盘上的某个vrm 出现故障。
cpu 指示灯:当此指示灯发亮时,表明某个微处理器出现故障。
pci 指示灯:当此指示灯发亮时,表明某个pci 总线发生错误。
mem 指示灯:当此指示灯发亮时,表明发生内存错误。
dasd 指示灯:当此指示灯发亮时,表明某个热插拔硬盘驱动器出现故障。
nmi 指示灯:当此指示灯发亮时,表明出现一个不可屏蔽中断(nmi)。
sp 指示灯:当此指示灯发亮时,表明服务处理器遇到错误。
brd 指示灯:当此指示灯发亮时,表明某个连接的i/o 扩展单元出现故障。
log 指示灯:当此指示灯发亮时,表明您应该查看事件日志或remotesupervisor。
cnfg指示灯:当此指示灯发亮时,表明BIOS配置错误
。
raid 指示灯:当此指示灯发亮时,表明阵列卡故障。
over spec 指示灯:当此指示灯发亮时,表明对电源的需求超过了指定的电源供应。
remind 按钮:按下此按钮可重新设置操作员信息面板上的系统错误指示灯并将服务器置于提醒方式。在提醒方式下,故障并没有清除但系统错误指示灯会闪烁(每2 秒闪烁一次)而不是持续发亮;如果出现另一个系统错误,则系统错误指示灯将会持续发亮。
本文转自pimg200551CTO博客,原文链接:http://blog.51cto.com/pimg2005/1074616 ,如需转载请自行联系原作者