ds4700处理黄灯故障过程一例

简介:

昨天去客户那巡检,小鸡上errpt输出大量 P H 错误,错误component location指向存储映射到aix的磁盘,而存储处于黄灯状态。先不多说,连上存储看看神马问题先。

 
解决问题前,先提下存储工具recovery guru
The Recovery Guru is a component of the Subsystem Management window (SMW) that diagnoses problems and recommends recovery procedures to fix the problems
恢复Guru是子系统管理窗口的组件,它能够诊断问题并推荐恢复步骤以用来修复该错误。
 
一下图为ds4700 critical log 截图

 

如上图
描述信心:温度超标       Description: nominal temeratre exceeded
事件种类: 失效          event category: failure
组件类型:温度传感器     component type: temperature sensor
从上面信息大致可以判断出:由于温度传感器检测到其周围温度过高而亮起了黄灯。
二 ds4700 recovery guru 截图如下

 

 

What caused the problem ?什么导致这个问题呢? 图中提示了如下三种可能
The nominal temperature of the enclosure has been exceed. Ether a fan has failed, an obstruction is blocking the air flow to or from the enclosure, or  the temperature of the root is too high. The recovery guru details area provides specific information you will need as you follow the recovery steps.
1         a fan has failed      风扇坏了
2         an obstruction is blocking the air flow to or from the enclosure 障碍物堵塞了盘柜壳子的通风口
3          the temperature of the root is too high 房间温度太高了

 

三 recovery guru 给出的恢复步骤如下图

 

 

 

 

上图说了大概三个意思
1如果有风扇失效的报告,依照相关步骤解决这个问题
2 如果没有风扇失效的报告,移除任何阻挡通风口的障碍物,如果没障碍物,那就是房间冷却系统的问题。
3处理完相关问题后,重新运行recovery guru检查是否有相关问题

 

四 开始处理问题
1 检查存储的风扇有没有问题下图为虚拟存储截图真实存储风扇状态也如下图所示。

 

2 既然风扇没有失效,查看磁盘阵列通风口,也没有被大的障碍物挡住,不排除灰尘问题。
3 关于房间冷却系统,进去后感觉温度还挺低,如果温度高,那不仅仅是存储,估计所有小鸡都会亮起黄灯,所以这个可以排除,不去考虑。
4 等结业后,拆分ds4700 用吹风机吹,瞬间楼道内全是浓烈的灰尘………除尘完毕,组装好存储,通电,远程登录,点击recovery guru 提示故障排除。
 
五 总结:通过存储管理软件访问存储,b控制器的温度传感器检测周围温度过高,拆分存储的时候,果然b控制器温度明显比a控制器温度高。看来阻挡通风口的不光是障碍物还有灰尘。









本文转自 zhangxuwl 51CTO博客,原文链接:http://blog.51cto.com/jiujian/1003017,如需转载请自行联系原作者
目录
相关文章
|
虚拟化
故障案例-ESXI6.7 EP13 紫屏分析
一台ESXI6.7 EP13 紫屏分析过程
2181 0
|
1月前
|
存储 Java API
HDFS如何处理故障和节点失效?请解释故障恢复机制。
HDFS如何处理故障和节点失效?请解释故障恢复机制。
86 0
|
NoSQL API Redis
HDFS 如何实现故障自动转移
HDFS 如何实现故障自动转移
99 0
|
存储 运维 NoSQL
数据复制系统设计(3)-配置新的从节点及故障切换过程详解
1.3 配置新的从节点 有时需考虑新增一个从节点: 提高容错能力 或替换失败的副本节点
108 0
|
存储 运维 负载均衡
RH236配置IP故障转移--CTDB
RH236配置IP故障转移--CTDB
801 0
RH236配置IP故障转移--CTDB
|
存储 SQL 文字识别
虚拟机模拟部署Extended Clusters(四)故障模拟测试,存储链路恢复
asm 磁盘组 当链路恢复之后,磁盘状态显示MISSING(CRS_0000,OCR_0000)。 [grid@prod02 ~]$ sqlplus / as sysdba SQL*Plus: Release 11.
4833 0
|
存储 文字识别 Oracle
虚拟机模拟部署Extended Clusters(三)故障模拟测试,存储链路断开
集群状态: [root@prod02 ~]# crsctl stat res -t -------------------------------------------------------------------------------- NAME TARGET ST.
1525 0