昨天机房空调坏了,气温过高,导致很多机器宕了!重启之后开始开始告警!系统为AIX6.1,与另一台主机做了HACMP。
错误信息为:
3D32B80D 0630172411 P S topsvcs NIM thread blocked
173C787F 0630172211 I S topsvcs Possible malfunction on local adapter
刚开始以为是网卡故障经检查排除!后对系统进行性能测试!
System configuration: lcpu=8 drives=11 paths=66 vdisks=0
tty: tin tout avg-cpu: % user % sys % idle % iowait
0.0 11.9 13.0 33.8 45.2 8.0
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
hdisk1 90.4 47563.7 265.3 88 238860
hdisk0 92.6 47617.8 265.5 84 239136
hdisk2 0.0 0.0 0.0 0 0
hdisk5 0.0 0.0 0.0 0 0
hdisk3 0.0 0.0 0.0 0 0
hdisk4 0.0 0.0 0.0 0 0
hdisk6 72.7 73962.3 290.6 371568 0
hdisk7 0.0 0.0 0.0 0 0
hdisk9 0.0 7.2 1.8 0 36
hdisk8 48.8 13020.6 208.6 64880 532
cd0 0.0 0.0 0.0 0 0
Total Paging Space Percent Used
4096MB 1%
system Configuration: lcpu=8 mem=23552MB
kthr memory page faults cpu
----- ----------- ------------------------ ------------ -----------
r b avm fre re pi po fr sr cy in sy cs us sy id wa
3 1 2235313 2103640 0 0 0 17475 69850 0 1949 50107 12770 5 34 54 8
3 1 2235347 2103699 0 0 0 17504 17510 0 2199 58415 12838 11 31 46 12
2 1 2235433 2103596 0 0 0 17126 44291 0 1998 51542 12286 13 33 42 12
3 1 2235434 2103426 0 0 0 17999 44201 0 2089 52374 12540 13 31 43 13
2 1 2235421 2103530 0 0 0 18058 18766 0 2109 55067 12629 8 31 51 9
经测试发现内存、交换空间、cpu资源还有很多空闲,但hdisk0、hdisk1这两块磁盘过热,长时间观察使用率一直居高不下!确定为磁盘过热导致其他进程挂起,无法响应其他节点请求,产生网络超时错误!
iostat 3 5 --确定哪块磁盘过热
lspv --确定磁盘属于哪个vg
lvmstat -v vg_name -e --开启lvm分析报告
lvmstat -v vg_name --查看哪个lv过热
lslv lv_name --查看lv的mount point字段值
ps -ef|grep mount_point --找到一直占用资源的进程名
发现进程后通知应用,将应用迁移到磁盘阵列上!
本文转自戴柏阳的博客博客51CTO博客,原文链接http://blog.51cto.com/daibaiyang119/600952如需转载请自行联系原作者
daibaiyang119