细节决定成败, 做技术的尤其如此。这里讲下另外一个遇到的真实案例:
我们采用了A10 AX系列部署在客户出口(电信+联通)作为链路负载均衡使用,采用双路冗余方式部署,如下图显示。
一次客户报障,内网用户访问个别网站时,会出现首页面可以打开,要求用户输入用户名和密码,但是然后页面无法显示的问题,如下显示:
排障过程
1) 确定目标网站无问题,其他客户可以正常访问
2) 确定从A10设备访问目标网站无问题
3) 检查是否NAT地址漂移问题:
出现用户输入用户名/密码后无响应的一个可能性是出口做NAT时,源IP客户发出的不同链接使用了不同的NAT地址,会有可能造成目标网站服务器认为连接不正常;
检查确认NAT使用同一地址,无问题
以后都无问题后,只能抓包分析:
4) 在客户端测试,A10 负载均衡设备上也抓包,分析,终于发现问题
负载均衡设备发现是客户端主动Reset
然而在客户端的抓包则显示服务器主动Reset
(注意:这2张图不是同一次测试的结果)
问题: 从客户端看,客户端并未主动发送Reset, 而A10设备又接收到从客户端发送的Reset报文,推测是在客户端和A10设备之间的其他设备(防火墙,IPS等安全设备)主动代理客户端Reset连接,导致客户端的连接失败。
基于这种情况,建议客户检查IPS设备,最终确认是IPS策略设置问题,对该网站的请求认为非法,主动替客户端发送Reset报文关闭连接,造成用户访问不正常。
此次监测的问题是,链路负载均衡设备作为出口设备负责全部流量的进出,在任何访问不正常的情况下都会被怀疑为故障的原因,只有认真的协调客户测试,对比结果才会发现问题的根源所在。
本文转自 virtualadc 51CTO博客,原文链接:http://blog.51cto.com/virtualadc/743698