F5 LTM1500诡异的硬盘故障(连载一)

简介:
架构描述:两台 F5 LTM1500通过active/standby模式转发外部的请求,IP地址分别为***.**.*.21***.**.*.22,虚拟成一个虚地址***.**.*.20,心跳地址是1.1.1.11.1.1.2

 

故障描述:两台机器都可以PING通。处于STANDBY状态的LTM可以通过浏览器正常登录,但处于ACTIVELTM却无法通过浏览器登陆,导致服务器负载均衡状态无法查看,更有甚者通过SSH连接CONSOLE命令行也无法登陆(提示Connection refused),通过两台机器的心跳地址可以PING通,但还是无法用SSH建立连接(同样提示Connection refused),可诡异的是LTM应用分发居然正常。由于ACTIVE的主机无法登陆,这种情况下相当于服务器负载均衡失控,更要命的是无法完成ACTIVESTANDBY的切换,因为Force To Standby按钮只有在ACTIVE的机器上才有。中午趁午休时间赶往IDC,但考虑到直接断点的风险决定先将就运行,同时准备一个极端的方案(在该F5出现问题时,考虑通过交换机屏蔽ACTIVE的机器进行强行切换)

 

 

通过内部心跳地址SSH如下:

Last login: Thu Sep 27 12:49:27 2012 from ***.**.3.5
[root@ltm01:Active] config # ping 1.1.1.1
PING 1.1.1.1 (1.1.1.1) 56(84) bytes of data.
64 bytes from 1.1.1.1: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 1.1.1.1: icmp_seq=1 ttl=64 time=0.042 ms

 

--- 1.1.1.1 ping statistics ---

 
2 packets transmitted, 2 received, 0% packet loss, time 1012ms
rtt min/avg/max/mdev = 0.042/0.045/0.048/0.003 ms, pipe 2
[root@ltm01:Active] config # ping 1.1.1.2
PING 1.1.1.2 (1.1.1.2) 56(84) bytes of data.
64 bytes from 1.1.1.2: icmp_seq=0 ttl=255 time=0.595 ms
64 bytes from 1.1.1.2: icmp_seq=1 ttl=255 time=1.38 ms
64 bytes from 1.1.1.2: icmp_seq=2 ttl=255 time=1.23 ms
[1]+  Stopped                 ping 1.1.1.2
[root@ltm01:Active] config # ssh 1.1.1.2
ssh: connect to host 1.1.1.2 port 22: Connection refused

 

故障处理:好景不长,下午1500业务高峰发现静态页面出现乱码的故障,考虑APACHE异常,对两APACHE节点进行重启,居然页面无法访问。最后采用上述准备的极端方案,在应用交换机上对ACTIVE状态的F5设备进行屏蔽,然后就是祈祷式的等待,可喜的是数秒钟后F5成功进行了切换,业务完全恢复正常。


本文转自zylhsy 51CTO博客,原文链接:http://blog.51cto.com/yunlongzheng/1029469,如需转载请自行联系原作者

 
相关文章
|
6月前
|
运维 Windows
服务器数据恢复-服务器硬盘亮黄灯被踢,raid崩溃的数据恢复案例
服务器数据恢复环境: 一台3U的某品牌机架式服务器,Windows server操作系统,100块SAS硬盘组建RAID5阵列。 服务器故障: 服务器有一块硬盘盘的指示灯亮黄灯,这块盘被raid卡踢出后,raid阵列崩溃。
|
存储 关系型数据库 块存储
Ceph 磁盘损坏现象和解决方法
Damaged disks 对于存储系统,磁盘是消耗品,损坏是很常见的,所以这篇文章记录一下 Ceph 中出现磁盘损坏时的现象,以及如何定位和更换损坏的磁盘。
2081 0
日常环境莫名宕机的处理
## 背景 11.21 早上 pd 给讲法务评审的时候,操作日常环境,莫名就 down 机了,而且 pd 反馈经常会这样。(ps : pd 反馈系统请求时间过长,性能很差,后续也会排查解决) 于是排查了一下系统 down 机的原因 ## 原因 查看内存 setenv.sh 设置 if [ $memTotal -le 2048 ]; then SERVICE_OPTS="${SE
1232 0
|
API Windows 关系型数据库
一个Bug 差点让服务器的文件系统崩溃
昨天,公司的美国客户发邮件给我,说我的软件出问题了,我查来查去,发现居然是服务器上一个目录无法删除,一删除就报 cannot read from the source file or disk. 如果用命令行方式删除,则报  cannot find the specified path。
891 0