Kubernetes 网络一出事,先别重启:一条从 Pod 打到内核的排查路线图

简介: Kubernetes 网络一出事,先别重启:一条从 Pod 打到内核的排查路线图

Kubernetes 网络一出事,先别重启:一条从 Pod 打到内核的排查路线图


说句掏心窝子的话:

Kubernetes 里,十个疑难杂症,八个最后都能追溯到“网络”。

服务超时、探针失败、Pod 起不来、节点 NotReady、偶发 502……
你去翻日志,啥也没有;
你问开发,人家说“我代码没改”;
你一看监控,CPU、内存都挺健康。

最后,锅往往落在一句很抽象的话上:

“网络好像不太稳定。”

而 Kubernetes 的网络,恰恰是最容易被“想当然”对待的东西

今天我想干一件事:
给你一条真正能落地的、从 Pod 一路查到 Linux 内核的排查路径。
不是技巧合集,而是一种系统化思维方式


一、先说结论:K8s 网络不是“一个东西”

很多人一排查就犯的第一个错是:

把 Kubernetes 网络,当成一个整体问题。

但在我眼里,它至少分 5 层

  1. Pod 内部网络
  2. Pod ↔ Pod(同节点 / 跨节点)
  3. Service / kube-proxy
  4. Node 网络 & CNI
  5. Linux 内核网络栈

你要是没分层,排查一定是乱的。


二、第一层:Pod 内部,别急着甩锅给集群

网络不通?
先别怪 CNI,先看 Pod 自己。

你第一步该干啥?

kubectl exec -it pod-a -- sh

然后在 Pod 里做三件事:

ip addr
ip route
ping 127.0.0.1

你要确认的只有几件小事:

  • Pod 有没有 IP?
  • 默认路由是不是指向 eth0?
  • 本地 loopback 通不通?

我见过真实事故:

Pod 用的是 distroless 镜像,
容器里连 ip 命令都没有,
最后靠猜查了一晚上。

结论很扎心:

你连 Pod 自己是不是“醒着的”都没确认,就开始怀疑整个集群。


三、第二层:Pod ↔ Pod,先区分“同节点”还是“跨节点”

这是一个90% 的人忽略、但极其关键的分叉点

怎么快速判断?

kubectl get pod -o wide

NODE 列。

情况 A:同一个 Node 上 Pod 不通

优先怀疑:

  • CNI bridge / veth
  • iptables / eBPF 规则异常
  • Pod 网卡被删了

你可以在 Node 上看:

ip link | grep veth

如果 veth 对不上,那基本已经接近真相了。

情况 B:跨 Node 才不通

那你要开始怀疑:

  • Node 间路由
  • Overlay 网络(VXLAN / Geneve)
  • 防火墙 / 安全组

一个很实用的命令:

kubectl exec pod-a -- traceroute pod-b-ip

看包卡在哪一跳,比你盲猜一小时都有用。


四、第三层:Service 不通?别急着骂 kube-proxy

我见过太多人,一遇到 Service 问题就一句话:

“kube-proxy 又抽风了。”

但事实是:
Service 只是 iptables / IPVS 规则的“外壳”。

你该确认三件事:

1️⃣ Endpoints 对不对?

kubectl get endpoints svc-name

如果这里是空的,那网络再好也没用。

2️⃣ kube-proxy 模式是啥?

kubectl -n kube-system get cm kube-proxy -o yaml

iptables 还是 IPVS?
排查方式完全不一样。

3️⃣ Node 上规则是否存在?

iptables 模式:

iptables -t nat -L | grep svc-name

IPVS 模式:

ipvsadm -Ln

我踩过一个很典型的坑:

kube-proxy 在
Node 上 OOM 被杀了,
规则还在,但不再更新。

结论:

Service 出问题,很多时候是“数据面还在,控制面已经死了”。


五、第四层:CNI 网络,问题集中营

说句大实话:

Kubernetes 网络 80% 的复杂度,都在 CNI。

无论你用的是:

  • Calico
  • Flannel
  • Cilium

你都必须搞清楚三件事:

  1. Pod IP 怎么来的
  2. 跨节点流量怎么走
  3. 策略在哪一层生效

以 Calico 为例

你至少得会看:

calicoctl node status
calicoctl get ippool -o yaml

我遇到过一个很经典的事故:

IPPool CIDR 改了,
老节点没同步,
新 Pod 分配的 IP 根本路由不到。

表面现象:

  • Pod 偶发不通
  • 重启“有时好,有时坏”

这类问题,不系统排查,你根本抓不到。


六、第五层:Linux 内核,真·终极形态

当你走到这一步,说明:

你已经比 80% 的 K8s 使用者走得更深了。

几个你必须掌握的工具:

conntrack 表爆了

conntrack -L | wc -l

再看看最大值:

sysctl net.netfilter.nf_conntrack_max

真实线上事故:

高并发短连接
conntrack 满
新连接直接被 DROP
应用层只看到 timeout


丢包?别光看网卡

ethtool -S eth0
netstat -s

再配合:

tcpdump -i eth0

抓包不是为了装逼,是为了终止争论。


七、我自己的一个“血泪总结”

干了这么多年运维,我越来越坚定一个观点:

Kubernetes 网络排查,拼的不是命令多,而是路径清楚。

如果你愿意记住一句话,那就是:

从 Pod 开始,一层一层往下,不要跳步。

  • 不要一上来重启节点
  • 不要一上来升级 CNI
  • 不要一上来甩锅云厂商

因为:

重启解决的问题,通常不是被你解决的,而是被你“掩盖”的。


写在最后

Kubernetes 网络这玩意儿,说难是真难,
但一旦你脑子里有了分层模型
很多“玄学问题”会突然变得特别理性。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
1月前
|
运维 Kubernetes 安全
CNI 不是装完就完事:Calico、Cilium、Weave,选错一个,集群网络天天加班
CNI 不是装完就完事:Calico、Cilium、Weave,选错一个,集群网络天天加班
175 8
|
27天前
|
存储 缓存 固态存储
2026年阿里云服务器2核8G、4核16G、8核32G最新收费标准和活动价格参考
阿里云服务器提供2核8G、4核16G、8核32G配置,适合中小型数据库、缓存、搜索集群及企业办公等场景。收费标准包括按量付费、包月及多年付费,价格因实例规格和购买时长而异。文中列举了详细价格,如2核8G配置年付701.40元起,4核16G配置年付1291.80元起,8核32G配置年付7551.94元起。用户可根据需求选择,并通过阿里云活动页面获取实时优惠,领券购买可额外减免。
2026年阿里云服务器2核8G、4核16G、8核32G最新收费标准和活动价格参考
|
8天前
|
运维 监控 网络协议
别再说 IPv6 只是“未来”了:我在生产环境踩过的那些坑
别再说 IPv6 只是“未来”了:我在生产环境踩过的那些坑
106 3
|
11天前
|
数据采集 供应链 物联网
别再只会调用 API 了:一步步教你用 Python Fine-Tune 一个定制化大模型
别再只会调用 API 了:一步步教你用 Python Fine-Tune 一个定制化大模型
165 3
|
1月前
|
存储 人工智能 运维
2026年阿里云企业用户优惠政策与专属服务介绍,企业上云优惠攻略参考
2026年阿里云为企业用户推出专属优惠,涵盖199元/年通用算力型u1实例等高性价比云服务器,以及u2a实例和第九代实例等高性能选择。企业可申请最低3500元、最高10万元上云抵扣金,及5亿迁云补贴优惠券,有效降低上云成本。同时,阿里云提供专家一对一服务、初创企业专属支持及免费试用机会,助力企业平滑迁移、高效运维,满足企业从入门到高阶的多元上云需求。
|
23天前
|
存储 人工智能 弹性计算
2026年阿里云服务器租用价格表:一年、1个月、3年和1小时收费清单(完整版)
在云计算快速普及的2026年,阿里云作为国内领先的云计算服务提供商,凭借稳定的性能、灵活的配置和透明的定价,成为个人开发者、中小企业及大型企业上云的首选。阿里云服务器租用价格体系基于机型品类、配置规格、计费模式及部署地域构建,采用“基础套餐 + 组件叠加”的透明定价方式,无隐藏消费,核心涵盖轻量应用服务器、ECS云服务器、GPU高性能服务器三大品类,计费方式包括年付、月付、3年付及按量付费(按小时计费),费用从38元/年到数万元/年不等,适配个人开发、中小企业建站、AI计算等全场景需求。
837 11
|
1月前
|
人工智能 弹性计算 自然语言处理
阿里云推出OpenClaw极简部署方案,一键创建专属AI助手!
阿里云OpenClaw是开源、本地优先的AI智能代理平台,支持自然语言指令执行文件处理、日程管理、跨平台操作等任务。提供极简一键部署方案,无需技术基础,7×24小时专属AI助手即刻上线。
280 5
|
1月前
|
人工智能 弹性计算 自然语言处理
2026年阿里云一键部署使用OpenClaw详细教程
本文将详细介绍如何通过阿里云轻量应用服务器实现OpenClaw的一键部署,助力大家快速拥有专属AI数字员工。
285 2
|
1月前
|
人工智能 机器人 网络安全
2026年阿里云OpenClaw快速部署教程:一键创建专属AI助手!
本文将详细介绍阿里云OpenClaw快速部署教程,手把手教你一键创建专属AI助手!
186 2
|
2月前
|
人工智能 测试技术 开发者
AI Coding后端开发实战:解锁AI辅助编程新范式
本文系统阐述了AI时代开发者如何高效协作AI Coding工具,强调破除认知误区、构建个人上下文管理体系,并精准判断AI输出质量。通过实战流程与案例,助力开发者实现从编码到架构思维的跃迁,成为人机协同的“超级开发者”。
1971 106