链路问题?高防链接超时

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 链路问题?高防链接超时

一、问题简述


某用户反馈安徽电话经常出现链接高防IP超时的情况,判断是安徽电信链接高防存在链路问题,期望我们协助解决。


二、问题分析


1、网络测试


用户在存在有问题的客户端上协助执行ping以及mtr,从MTR上看,客户端就出现丢包,是本地客户端网络的问题。但是这个丢包率其实很低,同时TCP协议是有重传机制的,理论上不会出现明显链接中断。
image.png


2、进一步进行分析抓包


用户反馈了2个抓包,发现了2个场景:


2.1、客户端直接连接负载均衡也会出现问题



  1. image.png
    问题原因:分析这个报文看到,这个客户端的request ,是过了15S再次发出的。由于负载均衡的默认keepalive的时间为15S的。,如果超过15S,就断开链接了,导致通信有问题。

解决方法:建议在负载均衡的控制台调整到最长60S观察下的。


2.2、客户端链接高防出现问题


image.png
如图为7月29日11:44:23到7月29日12:46:33的抓包。
但是与高防IP的443端口的通信,在7月29日12:23:13 之后就没有了,而给的日志是 时间是7月29日12:44:11 这个很诡异。
继续分析报文,理论上当时在抓包,所有的通信都会保留在报文中,同时客户端的报错日志为:
image.png
最终定位是由于客户端的原因,查询dns的请,如下图存在dns劫持。对应的cname被劫持到了一个海外的地址。
image.png
同时查询与IP地址的通信全部超时了。
image.png
最终的结论为由于该域名对应的cname地址被劫持了,导致与服务端通信异常。


3、处理建议


A、最终客户端修改dns地址为223.5.5.5 223.6.6.6 然后观察的
B、最终客户端绑定HOST到 高防IP上进行使用的。
C、修改域名解析为A记录,然后使用的。
3个方法,影响面不一样,可以进行评估下选择。
最终通过联系运营商刷新dns缓存后解决。


三、总结


这个问题能够分析出来有2个核心点:
1、抓包时抓取了所有的报文,而非与高防IP进行通信的报文。不是说有问题都是表面看到的。
2、熟悉以及了解HTTP的通信全过程
image.png

相关文章
|
8月前
|
域名解析 移动开发 负载均衡
阿里云DNS常见问题之DNS负载均衡调加权模式失败如何解决
阿里云DNS(Domain Name System)服务是一个高可用和可扩展的云端DNS服务,用于将域名转换为IP地址,从而让用户能够通过域名访问云端资源。以下是一些关于阿里云DNS服务的常见问题合集:
|
3月前
|
弹性计算 负载均衡 网络安全
接入DDoS高防后如何设置源站保护
接入DDoS高防后如何设置源站保护
|
8月前
|
网络协议 Java 应用服务中间件
长连接黑洞重现和分析
这是一个存在多年,遍及各个不同的业务又反反复复地在集团内部出现的一个问题,本文先通过重现展示这个问题,然后从业务、数据库、OS等不同的角度来分析如何解决它,这个问题值得每一位研发同学重视起来,避免再次踩到
131 0
|
8月前
|
域名解析 弹性计算 网络协议
阿里云DNS常见问题之不知道GTM线路解析如何解决
阿里云DNS(Domain Name System)服务是一个高可用和可扩展的云端DNS服务,用于将域名转换为IP地址,从而让用户能够通过域名访问云端资源。以下是一些关于阿里云DNS服务的常见问题合集:
|
8月前
|
存储 缓存 对象存储
通过云存储网关事件告警了解网关使用常见问题
本文通过云存储网关控制台事件告警中心,来说明网关使用过程中一些常见问题及相关的应对方法
|
8月前
|
域名解析 缓存 网络协议
DNS问题之服务器流量被攻击如何解决
DNS服务器是负责将域名转换为IP地址的服务,它是互联网上实现域名解析的关键基础设施;本合集将探讨DNS服务器的工作原理、配置方法和常见问题处理,帮助用户理解和优化DNS服务的使用。
147 3
|
安全 网络安全 API
网站被流量攻击了,该怎么处理
网站被流量攻击了,该怎么处理
|
8月前
|
负载均衡 安全 网络协议
什么是流量攻击? 流量攻击怎么处理?
什么是流量攻击? 流量攻击怎么处理?
|
网络协议 Shell Perl
根据web访问日志,封禁请求量异常的IP,如IP在半小时后恢复正常,则解除封禁
根据web访问日志,封禁请求量异常的IP,如IP在半小时后恢复正常,则解除封禁
119 1
|
Kubernetes 负载均衡 网络协议
k8s网络诊断之我的流量去哪了
某客户反馈,生产业务的应用在做滚动更新时大量502报错,同时生产业务中pod设置了prestop来优雅下线(延迟关闭),但是在滚动更新时依然会有502的问题,由于生产环境流量比较高,决定搭建测试环境模拟复现该问题,实际复现过程中发现,pod切换完成后,客户端访问svc关联的SLB,应用会超时一段时间或者qps下降为0
1958 1