ACK集群pod请求同vpc下自建nginx偶发不通

简介: ACK集群pod请求同vpc下自建nginx偶发不通

背景

用户是ACK+flannel的网络插件,里面有套业务的逻辑回去请求同vpc下ECS自建的nginx应用,发现目前会有大概率请求失败的情况出现

问题排查

1 处理这类问题首先我们要知道整套业务链路的网络走向,会经过哪些网口以及规则等,由于用户是pod主动访问集群外部的资源,那么简单来看整个网络链路就是:pod(客户端)---->node(pod所在的节点)---->自建nginx(目标ecs)



2 整个链路捋清楚以后就开始复现排查了,首先拿到用户集群的kubeconfig以后,进入用户指定的业务pod里面模拟测试了下,结果如图所示,果然会请求失败。


3 模拟到现象后,我们就开始做进一步分析,把pod所在节点的ECS授权以及对端ECS登录信息拿到,因为pod请求外部资源,到cb0网卡以后,会根据规则+路由通过节点的eth0 IP和对端ECS通信,所以这里我们需要拿到节点登录信息抓包看下流量是否出去了,通过抓包分析看,流量已经到节点并且送出去了,是对端ECS收到报文后没响应



4 从抓包看到现象后,其实问题范围就大概定位了,出现在目标ECS上,目标ECS不响应syn报文,一般不响应syn报文就几种情况

(1)服务器里面有安全软件,然后安全机制丢弃了这些报文(但是通过排查里面并未发现安全软件,基本可以排除)

(2)系统防火墙做了拦截,但是通过ps以及systemctl 看iptables 以及firewalld服务并未开启

(3)内核参数设置不当引发问题,我们执行netstat -s 命令查看到passive connections rejected because of time stamp统计数值非常大,并且接近于SYNs to LISTEN sockets dropped的数量,而且一直在增加


5 通过上面的抓包分析后,问题大致定位了, 我们怀疑和时间戳参数相关,因为当SYN报文的TimeStamp值小于前面成功响应的SYN报文的TimeStamp值,系统默认就会不响应该SYN请求,进一步查看用户参数配置,发现开启了tcp_tw_recycle,当tcp_tw_recycle/tcp_timestamps都开启的条件下,同一源ip主机的socket connect请求中的timestamp必须是递增的,如果不递增就会导致被丢弃,这里在nat环境下就会有不递增的坑,因为用户pod主动访问集群外部资源,网络确确实实会通过ipvs+iptables nat一次,所以符合问题现象

解决方案

服务器端不要将tcp_tw_recycle字段和tcp_timestamps字段同时设为1 ,在自建nginx的ECS侧把tcp_tw_recycle关闭后问题恢复

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
5天前
|
Prometheus Kubernetes 监控
OpenAI故障复盘丨如何保障大规模K8s集群稳定性
OpenAI故障复盘丨如何保障大规模K8s集群稳定性
|
9天前
|
运维 分布式计算 Kubernetes
ACK One多集群Service帮助大批量应用跨集群无缝迁移
ACK One多集群Service可以帮助您,在无需关注服务间的依赖,和最小化迁移风险的前提下,完成跨集群无缝迁移大批量应用。
|
2月前
|
缓存 容灾 网络协议
ACK One多集群网关:实现高效容灾方案
ACK One多集群网关可以帮助您快速构建同城跨AZ多活容灾系统、混合云同城跨AZ多活容灾系统,以及异地容灾系统。
|
3月前
|
Kubernetes Ubuntu 网络安全
ubuntu使用kubeadm搭建k8s集群
通过以上步骤,您可以在 Ubuntu 系统上使用 kubeadm 成功搭建一个 Kubernetes 集群。本文详细介绍了从环境准备、安装 Kubernetes 组件、初始化集群到管理和使用集群的完整过程,希望对您有所帮助。在实际应用中,您可以根据具体需求调整配置,进一步优化集群性能和安全性。
176 12
|
3月前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
3天前
|
弹性计算 运维 负载均衡
课时3:阿里云专有网络VPC:让网络更加独立
阿里云专有网络VPC提供独立、安全的云上网络环境,支持自定义IP地址网段和灵活的路由配置。通过高速通道实现优质网络链路,可用性达99.95%,满足企业高要求的数据传输需求。VPC结合弹性公网IP、负载均衡SLB、Net网关等功能,帮助企业轻松管理网络资源,降低运维成本,实现高效、安全的混合云架构部署。
|
10月前
|
弹性计算 监控 开发工具
【阿里云弹性计算】阿里云ECS的网络优化实践:VPC配置与网络性能提升
【5月更文挑战第29天】阿里云ECS通过虚拟私有云(VPC)提供高性能、安全的网络环境。VPC允许用户自定义IP地址、路由规则和安全组。配置包括:创建VPC和交换机,设定安全组,然后创建ECS实例并绑定。优化网络性能涉及规划网络拓扑、优化路由、启用网络加速功能(如ENI和EIP)及监控网络性能。示例代码展示了使用Python SDK创建VPC和交换机的过程。
465 3
|
4月前
|
弹性计算 安全 容灾
阿里云DTS踩坑经验分享系列|使用VPC数据通道解决网络冲突问题
阿里云DTS作为数据世界高速传输通道的建造者,每周为您分享一个避坑技巧,助力数据之旅更加快捷、便利、安全。本文介绍如何使用VPC数据通道解决网络冲突问题。
197 0
|
7月前
|
敏捷开发 网络协议 测试技术
阿里云云效产品使用合集之在vpc网络里,如何升级agent
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
10月前
|
弹性计算 关系型数据库 数据库
【阿里云助力企业数字化转型:专有网络、ECS、RDS等一网打尽】
数字化转型已经成为企业发展的必然趋势,而阿里云作为我国领先的云计算服务提供商,为企业提供了一整套完善的云服务解决方案。本文将详细介绍阿里云的专有网络VPC、云服务器ECS、云数据RDS、云数据库Redis、Serverless容器集群ASK、微服务引擎MSE、云效以及云速搭CADT等产品,帮助企业轻松实现数字化转型。 正文:
249 3

热门文章

最新文章