F5 LTM1500诡异的硬盘故障(连载一)

简介:
架构描述:两台 F5 LTM1500通过active/standby模式转发外部的请求,IP地址分别为***.**.*.21***.**.*.22,虚拟成一个虚地址***.**.*.20,心跳地址是1.1.1.11.1.1.2

 

故障描述:两台机器都可以PING通。处于STANDBY状态的LTM可以通过浏览器正常登录,但处于ACTIVELTM却无法通过浏览器登陆,导致服务器负载均衡状态无法查看,更有甚者通过SSH连接CONSOLE命令行也无法登陆(提示Connection refused),通过两台机器的心跳地址可以PING通,但还是无法用SSH建立连接(同样提示Connection refused),可诡异的是LTM应用分发居然正常。由于ACTIVE的主机无法登陆,这种情况下相当于服务器负载均衡失控,更要命的是无法完成ACTIVESTANDBY的切换,因为Force To Standby按钮只有在ACTIVE的机器上才有。中午趁午休时间赶往IDC,但考虑到直接断点的风险决定先将就运行,同时准备一个极端的方案(在该F5出现问题时,考虑通过交换机屏蔽ACTIVE的机器进行强行切换)

 

 

通过内部心跳地址SSH如下:

Last login: Thu Sep 27 12:49:27 2012 from ***.**.3.5
[root@ltm01:Active] config # ping 1.1.1.1
PING 1.1.1.1 (1.1.1.1) 56(84) bytes of data.
64 bytes from 1.1.1.1: icmp_seq=0 ttl=64 time=0.048 ms
64 bytes from 1.1.1.1: icmp_seq=1 ttl=64 time=0.042 ms

 

--- 1.1.1.1 ping statistics ---

 
2 packets transmitted, 2 received, 0% packet loss, time 1012ms
rtt min/avg/max/mdev = 0.042/0.045/0.048/0.003 ms, pipe 2
[root@ltm01:Active] config # ping 1.1.1.2
PING 1.1.1.2 (1.1.1.2) 56(84) bytes of data.
64 bytes from 1.1.1.2: icmp_seq=0 ttl=255 time=0.595 ms
64 bytes from 1.1.1.2: icmp_seq=1 ttl=255 time=1.38 ms
64 bytes from 1.1.1.2: icmp_seq=2 ttl=255 time=1.23 ms
[1]+  Stopped                 ping 1.1.1.2
[root@ltm01:Active] config # ssh 1.1.1.2
ssh: connect to host 1.1.1.2 port 22: Connection refused

 

故障处理:好景不长,下午1500业务高峰发现静态页面出现乱码的故障,考虑APACHE异常,对两APACHE节点进行重启,居然页面无法访问。最后采用上述准备的极端方案,在应用交换机上对ACTIVE状态的F5设备进行屏蔽,然后就是祈祷式的等待,可喜的是数秒钟后F5成功进行了切换,业务完全恢复正常。


本文转自zylhsy 51CTO博客,原文链接:http://blog.51cto.com/yunlongzheng/1029469,如需转载请自行联系原作者

 
相关文章
|
6月前
|
运维 监控 安全
|
2月前
|
监控 安全
Bently Nevada 3500/77M往复式气缸压力监控器
3500/77M往复式气缸压力监测器是4通道设备,用于接收并调节Bently Nevada认证的压力传感器信号,实现往复式压缩机的压力监测。它通过持续对比监测参数与预设报警值,确保机械安全,同时提供关键运行数据。每个通道可处理8个与气缸压力相关的测量变量,包括排气、吸气压力等,以及结合机械参数计算的峰值杆压缩、张力和反转度等。详情见用户指南(文件146282)。
|
Windows
电脑硬件出现故障如何去修理?
电脑硬件出现故障如何去修理?
|
IDE 安全 开发工具
硬盘故障大全(很详细哦)
硬盘故障大全(很详细哦)
104 1
|
IDE 安全 开发工具
日常环境莫名宕机的处理
## 背景 11.21 早上 pd 给讲法务评审的时候,操作日常环境,莫名就 down 机了,而且 pd 反馈经常会这样。(ps : pd 反馈系统请求时间过长,性能很差,后续也会排查解决) 于是排查了一下系统 down 机的原因 ## 原因 查看内存 setenv.sh 设置 if [ $memTotal -le 2048 ]; then SERVICE_OPTS="${SE
1297 0
|
API Windows 关系型数据库
一个Bug 差点让服务器的文件系统崩溃
昨天,公司的美国客户发邮件给我,说我的软件出问题了,我查来查去,发现居然是服务器上一个目录无法删除,一删除就报 cannot read from the source file or disk. 如果用命令行方式删除,则报  cannot find the specified path。
927 0