【Kubernetes系列】第10篇 网络原理解析(下篇)

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
全局流量管理 GTM,标准版 1个月
简介: 3. 覆盖网络 - Overlay Network覆盖网络(overlay network)是将TCP数据包装在另一种网络包里面进行路由转发和通信的技术。Overlay网络不是默认必须的,但是它们在特定场景下非常有用。

3. 覆盖网络 - Overlay Network

覆盖网络(overlay network)是将TCP数据包装在另一种网络包里面进行路由转发和通信的技术。Overlay网络不是默认必须的,但是它们在特定场景下非常有用。比如当我们没有足够的IP空间,或者网络无法处理额外路由,抑或当我们需要Overlay提供的某些额外管理特性。一个常见的场景是当云提供商的路由表能处理的路由数是有限制时,例如AWS路由表最多支持50条路由才不至于影响网络性能。因此如果我们有超过50个Kubernetes节点,AWS路由表将不够。这种情况下,使用Overlay网络将帮到我们。

本质上来说,Overlay就是在跨节点的本地网络上的包中再封装一层包。你可能不想使用Overlay网络,因为它会带来由封装和解封所有报文引起的时延和复杂度开销。通常这是不必要的,因此我们应当在知道为什么我们需要它时才使用它。

为了理解Overlay网络中流量的流向,我们拿Flannel做例子,它是CoreOS 的一个开源项目。Flannel通过给每台宿主机分配一个子网的方式为容器提供虚拟网络,它基于Linux TUN/TAP,使用UDP封装IP包来创建overlay网络,并借助etcd维护网络的分配情况。

gif2_cross_node_overlay_network

Kubernetes Node with route table
(通过Flannel Overlay网络进行跨节点的Pod-to-Pod通信)

这里我们注意到它和之前我们看到的设施是一样的,只是在root netns中新增了一个虚拟的以太网设备,称为flannel0。它是虚拟扩展网络Virtual Extensible LAN(VXLAN)的一种实现,但是在Linux上,它只是另一个网络接口。

从pod1到pod4(在不同节点)的数据包的流向类似如下:

1.它由pod1中netns的eth0网口离开,通过vethxxx进入root netns。

2.然后被传到cbr0,cbr0通过发送ARP请求来找到目标地址。

3.数据封装

*a. 由于本节点上没有Pod拥有pod4的IP地址,因此网桥把数据包发送给了flannel0,因为节点的路由表上flannel0被配成了Pod网段的目标地址。
*b. flanneld daemon和Kubernetes apiserver或者底层的etcd通信,它知道所有的Pod IP,并且知道它们在哪个节点上。因此Flannel创建了Pod IP和Node IP之间的映射(在用户空间)。flannel0取到这个包,并在其上再用一个UDP包封装起来,该UDP包头部的源和目的IP分别被改成了对应节点的IP,然后发送这个新包到特定的VXLAN端口(通常是8472)。

flannel_packet_encapsulation

Packet-in-packet encapsulation
(notice the packet is encapsulated from 3c to 6b in previous diagram)

尽管这个映射发生在用户空间,真实的封装以及数据的流动发生在内核空间,因此仍然是很快的

*c. 封装后的包通过eth0发送出去,因为它涉及了节点间的路由流量。

4.包带着节点IP信息作为源和目的地址离开本节点。

5.云提供商的路由表已经知道了如何在节点间发送报文,因此该报文被发送到目标地址node2。

6.数据解包

*a. 包到达node2的eth0网卡,由于目标端口是特定的VXLAN端口,内核将报文发送给了 flannel0。
*b. flannel0解封报文,并将其发送到 root 命名空间下。从这里开始,报文的路径和我们之前在Part 1 中看到的非Overlay网络就是一致的了。
*c. 由于IP forwarding开启着,内核按照路由表将报文转发给了cbr0。

7.网桥获取到了包,发送ARP请求,发现目标IP属于vethyyy。

8.包跨过管道对到达pod4

这就是Kubernetes中Overlay网络的工作方式,虽然不同的实现还是会有细微的差别。有个常见的误区是,当我们使用Kubernetes,我们就不得不使用Overlay网络。事实是,这完全依赖于特定场景。因此请确保在确实需要的场景下才使用。

4. 动态集群

由于Kubernetes(更通用的说法是分布式系统)天生具有不断变化的特性,因此它的Pod(以及Pod的IP)总是在改变。变化的原因可以是针对不可预测的Pod或节点崩溃而进行的滚动升级和扩展。这使得Pod IP不能直接用于通信。

我们看一下Kubernetes Service,它是一个虚拟IP,并伴随着一组Pod IP作为Endpoint(通过标签选择器识别)。它们充当虚拟负载均衡器,其IP保持不变,而后端Pod IP可能会不断变化。

service_label_selector

Kubernetes service对象中的label选择器

整个虚拟IP的实现实际上是一组iptables(最新版本可以选择使用IPVS,但这是另一个讨论)规则,由Kubernetes组件kube-proxy管理。 这个名字现在实际上是误导性的。 它在v 1.0之前确实是一个代理,并且由于其实现是内核空间和用户空间之间的不断复制,它变得非常耗费资源并且速度较慢。 现在,它只是一个控制器,就像Kubernetes中的许多其它控制器一样,它watch api server的endpoint的更改并相应地更新iptables规则。

iptables_dnat

Iptables DNAT

有了这些iptables规则,每当数据包发往Service IP时,它就进行DNAT(DNAT=目标网络地址转换)操作,这意味着目标IP从Service IP更改为其中一个Endpoint - Pod IP - 由iptables随机选择。这可确保负载均匀分布在后端Pod中。

5_tuple_entries

conntrack表中的5元组条目

当这个DNAT发生时,这个信息存储在conntrack中——Linux连接跟踪表(iptables规则5元组转译并完成存储:protocol,srcIP,srcPort,dstIP,dstPort)。 这样当请求回来时,它可以un-DNAT,这意味着将源IP从Pod IP更改为Service IP。 这样,客户端就不用关心后台如何处理数据包流。

因此通过使用Kubernetes Service,我们可以使用相同的端口而不会发生任何冲突(因为我们可以将端口重新映射到Endpoint)。 这使服务发现变得非常容易。 我们可以使用内部DNS并对服务主机名进行硬编码。 我们甚至可以使用Kubernetes提供的service主机和端口的环境变量来完成服务发现。

专家建议: 采取第二种方法,你可节省不必要的DNS调用,但是由于环境变量存在创建顺序的局限性(环境变量中不包含后来创建的服务),推荐使用DNS来进行服务名解析。

4.1 出站流量

到目前为止我们讨论的Kubernetes Service是在一个集群内工作。但是,在大多数实际情况中,应用程序需要访问一些外部api/website。

通常,节点可以同时具有私有IP和公共IP。对于互联网访问,这些公共和私有IP存在某种1:1的NAT,特别是在云环境中。

对于从节点到某些外部IP的普通通信,源IP从节点的专用IP更改为其出站数据包的公共IP,入站的响应数据包则刚好相反。但是,当Pod发出与外部IP的连接时,源IP是Pod IP,云提供商的NAT机制不知道该IP。因此它将丢弃具有除节点IP之外的源IP的数据包。

因此你可能也猜对了,我们将使用更多的iptables!这些规则也由kube-proxy添加,执行SNAT(源网络地址转换),即IP MASQUERADE(IP伪装)。它告诉内核使用此数据包发出的网络接口的IP,代替源Pod IP同时保留conntrack条目以进行反SNAT操作。

4.2 入站流量

到目前为止一切都很好。Pod可以互相交谈,也可以访问互联网。但我们仍然缺少关键部分 - 为用户请求流量提供服务。截至目前,有两种主要方法可以做到这一点:

* NodePort /云负载均衡器(L4 - IP和端口)

将服务类型设置为NodePort默认会为服务分配范围为30000-33000的nodePort。即使在特定节点上没有运行Pod,此nodePort也会在每个节点上打开。此NodePort上的入站流量将再次使用iptables发送到其中一个Pod(该Pod甚至可能在其它节点上!)。

云环境中的LoadBalancer服务类型将在所有节点之前创建云负载均衡器(例如ELB),命中相同的nodePort。

* Ingress(L7 - HTTP / TCP)

许多不同的工具,如Nginx,Traefik,HAProxy等,保留了http主机名/路径和各自后端的映射。通常这是基于负载均衡器和nodePort的流量入口点,其优点是我们可以有一个入口处理所有服务的入站流量,而不需要多个nodePort和负载均衡器。

4.3 网络策略

可以把它想象为Pod的安全组/ ACL。 NetworkPolicy规则允许/拒绝跨Pod的流量。确切的实现取决于网络层/CNI,但大多数只使用iptables。

结束语

目前为止就这样了。 在前面的部分中,我们研究了Kubernetes网络的基础以及overlay网络的工作原理。 现在我们知道Service抽象是如何在一个动态集群内起作用并使服务发现变得非常容易。我们还介绍了出站和入站流量的工作原理以及网络策略如何对集群内的安全性起作用。

参考文章:

An illustrated guide to Kubernetes Networking - part1

An illustrated guide to Kubernetes Networking - part2

An illustrated guide to Kubernetes Networking - part3

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
17天前
|
网络协议 安全 5G
网络与通信原理
【10月更文挑战第14天】网络与通信原理涉及众多方面的知识,从信号处理到网络协议,从有线通信到无线通信,从差错控制到通信安全等。深入理解这些原理对于设计、构建和维护各种通信系统至关重要。随着技术的不断发展,网络与通信原理也在不断演进和完善,为我们的生活和工作带来了更多的便利和创新。
57 3
|
21天前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
38 3
|
2天前
|
运维 Kubernetes Cloud Native
Kubernetes云原生架构深度解析与实践指南####
本文深入探讨了Kubernetes作为领先的云原生应用编排平台,其设计理念、核心组件及高级特性。通过剖析Kubernetes的工作原理,结合具体案例分析,为读者呈现如何在实际项目中高效部署、管理和扩展容器化应用的策略与技巧。文章还涵盖了服务发现、负载均衡、配置管理、自动化伸缩等关键议题,旨在帮助开发者和运维人员掌握利用Kubernetes构建健壮、可伸缩的云原生生态系统的能力。 ####
|
9天前
|
算法 Java 数据库连接
Java连接池技术,从基础概念出发,解析了连接池的工作原理及其重要性
本文详细介绍了Java连接池技术,从基础概念出发,解析了连接池的工作原理及其重要性。连接池通过复用数据库连接,显著提升了应用的性能和稳定性。文章还展示了使用HikariCP连接池的示例代码,帮助读者更好地理解和应用这一技术。
23 1
|
10天前
|
网络协议 安全 算法
网络空间安全之一个WH的超前沿全栈技术深入学习之路(9):WireShark 简介和抓包原理及实战过程一条龙全线分析——就怕你学成黑客啦!
实战:WireShark 抓包及快速定位数据包技巧、使用 WireShark 对常用协议抓包并分析原理 、WireShark 抓包解决服务器被黑上不了网等具体操作详解步骤;精典图示举例说明、注意点及常见报错问题所对应的解决方法IKUN和I原们你这要是学不会我直接退出江湖;好吧!!!
网络空间安全之一个WH的超前沿全栈技术深入学习之路(9):WireShark 简介和抓包原理及实战过程一条龙全线分析——就怕你学成黑客啦!
|
14天前
|
数据采集 存储 编解码
一份简明的 Base64 原理解析
Base64 编码器的原理,其实很简单,花一点点时间学会它,你就又消除了一个知识盲点。
46 3
|
21天前
|
机器学习/深度学习 人工智能 监控
深入理解深度学习中的卷积神经网络(CNN):从原理到实践
【10月更文挑战第14天】深入理解深度学习中的卷积神经网络(CNN):从原理到实践
64 1
|
10天前
|
网络协议 安全 算法
网络空间安全之一个WH的超前沿全栈技术深入学习之路(9-2):WireShark 简介和抓包原理及实战过程一条龙全线分析——就怕你学成黑客啦!
实战:WireShark 抓包及快速定位数据包技巧、使用 WireShark 对常用协议抓包并分析原理 、WireShark 抓包解决服务器被黑上不了网等具体操作详解步骤;精典图示举例说明、注意点及常见报错问题所对应的解决方法IKUN和I原们你这要是学不会我直接退出江湖;好吧!!!
|
11天前
|
供应链 安全 分布式数据库
探索区块链技术:从原理到应用的全面解析
【10月更文挑战第22天】 本文旨在深入浅出地探讨区块链技术,一种近年来引起广泛关注的分布式账本技术。我们将从区块链的基本概念入手,逐步深入到其工作原理、关键技术特点以及在金融、供应链管理等多个领域的实际应用案例。通过这篇文章,读者不仅能够理解区块链技术的核心价值和潜力,还能获得关于如何评估和选择适合自己需求的区块链解决方案的实用建议。
34 0
|
17天前
|
存储 Kubernetes 监控
深度解析Kubernetes在微服务架构中的应用与优化
【10月更文挑战第18天】深度解析Kubernetes在微服务架构中的应用与优化
73 0

推荐镜像

更多