架构描述:两台 F5 LTM1500通过active/standby模式转发外部的请求,IP地址分别为***.**.*.21、***.**.*.22,虚拟成一个虚地址***.**.*.20,心跳地址是1.1.1.1、1.1.1.2
故障描述:两台机器都可以PING通。处于STANDBY状态的LTM可以通过浏览器正常登录,但处于ACTIVE的LTM却无法通过浏览器登陆,导致服务器负载均衡状态无法查看,更有甚者通过SSH连接CONSOLE命令行也无法登陆(提示Connection refused),通过两台机器的心跳地址可以PING通,但还是无法用SSH建立连接(同样提示Connection refused),可诡异的是LTM应用分发居然正常。由于ACTIVE的主机无法登陆,这种情况下相当于服务器负载均衡失控,更要命的是无法完成ACTIVE和STANDBY的切换,因为Force To Standby按钮只有在ACTIVE的机器上才有。中午趁午休时间赶往IDC,但考虑到直接断点的风险决定先将就运行,同时准备一个极端的方案(在该F5出现问题时,考虑通过交换机屏蔽ACTIVE的机器进行强行切换)
通过内部心跳地址SSH如下:
Last login: Thu Sep 27 12:49:27 2012 from ***.**.3.5
[root@ltm01:Active] config # ping 1.1.1.1
PING 1.1.1.1 (1.1.1.1) 56(84) bytes of data.
64 bytes from 1.1.1.1: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 1.1.1.1: icmp_seq=1 ttl=64 time=0.042 ms
--- 1.1.1.1 ping statistics ---
2 packets transmitted, 2 received, 0% packet loss, time 1012ms
rtt min/avg/max/mdev = 0.042/0.045/0.048/0.003 ms, pipe 2
[root@ltm01:Active] config # ping 1.1.1.2
PING 1.1.1.2 (1.1.1.2) 56(84) bytes of data.
64 bytes from 1.1.1.2: icmp_seq=0 ttl=255 time=0.595 ms
64 bytes from 1.1.1.2: icmp_seq=1 ttl=255 time=1.38 ms
64 bytes from 1.1.1.2: icmp_seq=2 ttl=255 time=1.23 ms
[1]+ Stopped ping 1.1.1.2
[root@ltm01:Active] config # ssh 1.1.1.2
ssh: connect to host 1.1.1.2 port 22: Connection refused
故障处理:好景不长,下午15:00业务高峰发现静态页面出现乱码的故障,考虑APACHE异常,对两APACHE节点进行重启,居然页面无法访问。最后采用上述准备的极端方案,在应用交换机上对ACTIVE状态的F5设备进行屏蔽,然后就是祈祷式的等待,可喜的是数秒钟后F5成功进行了切换,业务完全恢复正常。
本文转自zylhsy 51CTO博客,原文链接:http://blog.51cto.com/yunlongzheng/1029469,如需转载请自行联系原作者