《云原生网络数据面可观测性最佳实践》——二、全景剖析阿里云容器网络数据链路——6. ASM Istio 模式架构设计(中)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 《云原生网络数据面可观测性最佳实践》——二、全景剖析阿里云容器网络数据链路——6. ASM Istio 模式架构设计(中)

更多精彩内容,欢迎观看:

《云原生网络数据面可观测性最佳实践》——二、全景剖析阿里云容器网络数据链路——6. ASM Istio 模式架构设计(上):https://developer.aliyun.com/article/1221374?groupCode=supportservice


4) Istio-proxy

image.png

 可以看到15001和15006 被envoy应用所监听,而envoy应用就是istio-proxy容器程序。Init 容器启动的时候根据所设置的参数中指定将出入站流量重定向到 Envoy的模式为“REDIRECT”或者“TPROXY”。

 

使用REDIRECT方式,一旦Pod注入了Sidecar代理之后,所有入站流量都是从Envoy重定向,Envoy将流量发送到绑定了本地地址(127.0.0.1)的应用程序,所以应用看不到真正的原始IP。

 

在服务网格环境下如何保持服务访问时的客户端源IP呢?可以使用TPROXY模式,目前ASM已经支持了 TPROXY模式,具体详情请见https://help.aliyun.com/document_detail/464794.html

在TPROXY模式下,Pod的网络命名空间的iptables会有mangle配置。

ADS聚合服务发现

image.png

我们已经知道了服务网格会在每个注入的Pod内注入两个容器:istio-init和istio-proxy。一旦在网格控制面进行相关配置的修改,会通过pilot下发到每个istio-proxy容器去生效。而istio是通过xDS服务接口去实现相关配置的动态下发的,其中xDS包含了LDS(Listener Discover Service)、CDS(Cluster Discover Service)、EDS(Endpoint Discovery Service)和RDS(Route Discover Service)。

 

一般情况下,在更新配置过程中应该先更新Cluster->之后CLuster的Endpoint 开始更新->开始更新Cluster和Endpoint相对应的Listener -> Route开始更新配置的Listener信息->最后删除不在使用 Cluster和Endpoint 以保证更新过程中流量无损。但是这些xDS接口是相互独立,所以在配置下发的时候,存在某些依赖关系的DS因配置生效前后关系造成了部分流量被丢弃,这在某些生产环境中是无法接受的。

 

为了保证数据面配置的一致性,服务网格利用gRPC流来进行ADS聚合发现服务,通过一个gRPC流来保证各个xDS接口的调用顺序,避免各个接口独立性造成数据配置的不匹配。详细信息可以参考:
https://www.envoyproxy.io/docs/envoy/latest/api-docs/xds_protocol

envoy-rev.json

image.png

 可以看到istio-proxy 启动了pilot-agent 程序,pilot-agent 作为父进程启动了子进程/usr/local/bin/envoy。其中/etc/istio/proxy/envoy-rev.json 是envoy初始化的配置文件。

 

Node
包含了istio-proxy所在节点,当前Pod,istio版本、ACK集群ID、ASM版本、必要端口等相关信息。

image.png

 

admin

istio-proxy相关日志,管理端口等信息

image.png

 

dynamic_resources

ADS相关配置信息,比如api协议,版本,超时时间等

image.png

 

static_resources

包含了prometheus_stats、agent、sds-grpc、xds-grpc和zipkin五个cluster和一个在15090上监听的listener,xds-grpc cluster对应前面dynamic_resources中ADS配置。prometheus_stats cluster和15090用于对外提供prometheus采集端口。zipkin cluster是外部的zipkin服务器调用地址。

image.png

 

tracing

分布式链路跟踪,这里的collector_cluster是前面static_resources里面定义的zipkin cluster。

image.png

 

访问日志分析

通过前文,我们已经知道两个互相被注入的pod访问,流量会被各自的istio-proxy所劫持并处理,那么只要分析客户端和服务端的istio-proxy日志并进行加工,就可以对流量进行可观测性解读。

 

我们在这里还是以官方例子来举例访问 http:///productpage,productpage 应用会自动调用details服务,reviews服务。我们以productpage和details之间链路来进行举例分析。

 

productpage-v1-797d845774-dndmk IP 是10.0.1.130,details 应用的svc的名称是details,svc地址是192.168.1.125,svc端口是9080

 

请求发送方 productpage-v1-797d845774-dndmk的istio-proxy日志

{"upstream_host":"10.0.1.127:9080","downstream_remote_address":"10.0.1.130:49586","downstream_local_address":"192.168.1.125:9080","duration":6,"upstream_cluster":"outbound|9080||details.istio-inject.svc.cluster.local","path":"/details/0","protocol":"HTTP/1.1","upstream_local_address":"10.0.1.130:50026","method":"GET","user_agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36","route_name":"default","request_id":"834147c2-435f-94a7-af11-8491df9ab4f8","start_time":"2023-01-31T14:23:20.603Z","upstream_transport_failure_reason":null,"upstream_service_time":"5","response_flags":"-","bytes_received":0,"authority_for":"details:9080","authority":"details:9080","requested_server_name":null,"istio_policy_status":null,"trace_id":"9712c9f3da936a8c927f227bfe536c16","response_code":200,"x_forwarded_for":null,"bytes_sent":178}

 

请求接受方 details-v1-6758dd9d8d-dtbdc的istio-proxy日志

{"x_forwarded_for":null,"start_time":"2023-01-31T14:23:20.608Z","method":"GET","response_flags":"-","route_name":"default","istio_policy_status":null,"requested_server_name":"outbound_.9080_._.details.istio-inject.svc.cluster.local","bytes_received":0,"request_id":"834147c2-435f-94a7-af11-8491df9ab4f8","response_code":200,"upstream_host":"10.0.1.127:9080","trace_id":"9712c9f3da936a8c927f227bfe536c16","downstream_remote_address":"10.0.1.130:50026","protocol":"HTTP/1.1","bytes_sent":178,"upstream_transport_failure_reason":null,"downstream_local_address":"10.0.1.127:9080","upstream_local_address":"127.0.0.6:46225","authority":"details:9080","authority_for":"details:9080","upstream_service_time":"0","upstream_cluster":"inbound|9080||","duration":1,"path":"/details/0","user_agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36"}

 日志内容解读

 

"upstream_host":"10.0.1.127:9080",————对于outbound,此是上游某个Endpoint地址和端口

downstream_remote_address":"10.0.1.130:49586"," ————对于outbound,此为本pod-ip:随机端口1

downstream_local_address":"192.168.1.125:9080","————对于outbound,此为目svc-ip:svc-port

duration":6," ———— 整个请求时间,单位ms

upstream_cluster":"outbound|9080||details.istio-inject.svc.cluster.local",———— cluster信息

"path":"/details/0"

"protocol":"HTTP/1.1"

"upstream_local_address":"10.0.1.130:50026", ————对于outbound,此为本pod-ip:随机端口2

"method":"GET"

"user_agent":"Mozilla/5.0(Windows NT 10.0; Win64; x64)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36"

"route_name":"default",———— 路由名称

"request_id":"834147c2-435f-94a7-af11-8491df9ab4f8"

"start_time":"2023-01-31T14:23:20.603Z"

"upstream_transport_failure_reason":null

"upstream_service_time":"5",———— 上游返回请求时间,单位ms

"response_flags":"-",———— 返回标志,关于连接或返回详细信息

"bytes_received":0

"authority_for":"details:9080"

"authority":"details:9080"

"requested_server_name":null

"istio_policy_status":null

"trace_id":"9712c9f3da936a8c927f227bfe536c16",———— 此ID为唯一值,可以在上游istio-proxy对应

"response_code":200,———— 返回状态码

"x_forwarded_for":null

"bytes_sent":178

 

日志解读可以详细见官方连接:
https://www.envoyproxy.io/docs/envoy/latest/configuration/observability/access_log/usage

 

 

UPSTREAM_HOST

上游主机的host,表示从 envoy 发出的请求的目的端

通常来说,对于 outbound cluster,此值是「上游pod-ip :Pod-port」,而对于 inbound cluster,此值是「本pod-ip :Pod-port」

 

UPSTREAM_LOCAL_ADDRESS

上游连接中,当前 envoy的本地地址

通常来说,对于 outbound cluster,此值是「本pod-ip : 随机端口2」,而对于 inbound cluster,此值是「127.0.0.6: 随机端口3」,此处的127.0.0.6 对应了 【1.2 Pod流量转发-Init Container】 中的iptables会将来自127.0.0.6的流量免于istio代理,因为这个流量是从sidecar本身发出的

 

DONSTREAM_LOCAL_ADDRESS

下游连接中,当前 envoy的本地地址。通常来说,对于 outbound cluster,此值是「目的service-ip : service-port 」,而对于 inbound cluster,此值是「当前pod-ip :Pod-port,此处和下游的upstream_host应该相对应。

 

DOWNSTREAM_REMOTE_ADDRESS

通常来说,对于 outbound cluster,此值是「当前pod-ip : 随机端口 」,而对于 inbound cluster,此值是「下游pod-ip : 随机端口2」,此处和下游的upstream_local_address相对应


5 Envoy配置简读(数据链路)

背景

image.png

还是用官方的示例,以productpage 访问 reviews 服务来举例。

image.png

image.png

image.png

image.png

通过Kubernets 集群资源,我们可一看到reviews有三个版本 分贝为v1,v2,v3,Pod数量各一个。SVC reviews 是ClusterIP模式,svc端口是9080,targetport是pod的9080端口,v1,v2,v3 都被加到了reviews SVC的endpointslice。

 

在未被istio注入的情况下,集群内productpagePod访问 reviews.istio-inject 服务,会被netfilter以round-robin的方式平均转发到v1,v2,v3三个pod上,每个pod应该承受1/3的流量。在传统的k8s集群中,是无法通过k8s的resource控制不同版本的流量分配。但是实际的生产环境,我们是有这方面的需求的。

 

比如v1版本是线上业务版本,承载了主要业务流量,v2版本是开发完毕预上线版本,本质上是不希望影响线上流量的,可能需要引流线上流量的5%到预发版本进行一段时间观察,来判断新版本是否有问题,之后再进一步扩大引流比例直至100%之后,v1版本才进行下线,从而实现从业务角度的平滑迁移。

 

或者比如v3是测试版本,我们希望观察流量在网络波动超时情况下,业务的自我容灾和恢复情况的行为是否符合预期,以前这种需求需要通过在业务代码中写好熔断代码,不同熔断环境都需要重新发版。那么像这种流量控制在ASM Istio就可以很容易的实现。

 

下面就是一个ASM Istio中的vs和dr的配置。

apiVersion: networking.istio.io/v1beta1
kind: VirtualService
metadata:
 creationTimestamp: '2023-01-30T06:25:21Z'
 generation: 1
 name: reviews
 namespace: istio-inject
 resourceVersion: '651722274'
 uid: 63f715c9-b253-4fbb-8351-5313371df14e
spec:
 hosts:
 - reviews.istio-inject.svc.cluster.local
 http:
 - name: route
 route:
 - destination:
 host: reviews
 subset: v1
 weight: 10
 - destination:
 host: reviews
 subset: v2
 weight: 40
 - destination:
 host: reviews
 subset: v3
 weight: 50

 其中在reviews vs的定义了集群内访问reviews.istio-inject.svc.cluster.local 是的http协议的规则。其中指明了v1版本权重10%,v2版本权重40%,v3版本权重 50%

apiVersion: networking.istio.io/v1beta1
kind: DestinationRule
metadata:
 creationTimestamp: '2023-01-30T06:28:46Z'
 generation: 2
 name: reviews
 namespace: istio-inject
 resourceVersion: '654863578'
 uid: fdbdfcea-1fcd-453e-96fb-ce41c91ded9b
spec:
 host: reviews
 subsets:
 - labels:
 version: v1
 name: v1
 - labels:
 version: v2
 name: v2
 - labels:
 version: v3
 name: v3
 trafficPolicy:
 connectionPool:
 http:
 http2MaxRequests: 1000
 maxRequestsPerConnection: 10
 tcp:
 maxConnections: 100
 outlierDetection:
 baseEjectionTime: 15m
 consecutive5xxErrors: 7
 interval: 5m

 reviews dr的定义了集群内reviews的几个版本,并定义了相关流量策略。其中http2MaxRequests 表明http最大的请求数。maxRequestsPerConnection 表明每个连接最大的请求数。tcp最大连接数是100。在熔断配置中,每隔5min中检测一次,连续7次5xx,把后端移除endpoint 15min。

 

通过前文我们知道pilot通过xDS接口将服务网格的配置下发到每个被注入的pod中的istio-proxy中。那么对于每个pod中的istio-proxy,我们是否有办法去查看相关的加载的配置信息呢?istio-proxy通过15000端口对外暴露管理端口,我们可以通过如图所示的命令获取到相关的配置信息。

 

其中可以通过curl 127.0.0.1:15000/config_dump 可以获取到完整的配置信息,由于此配置信息超过1万多行,我们就不在这里做全部的展示

 

感兴趣的同学可以自行研究下,下文会针对此config_dump信息中的cluster,Listener,endpoint,route等关键信息做个相关展示和简要说明,同时也和前文的xDS做个呼应。

kubectl exec -n istio-inject productpage-v1-797d845774-dndmk -c istio-proxy -it -- curl 127.0.0.1:15000/config_dump

image.png

 

更多精彩内容,欢迎观看:

《云原生网络数据面可观测性最佳实践》——二、全景剖析阿里云容器网络数据链路——6. ASM Istio 模式架构设计(下):https://developer.aliyun.com/article/1221371?groupCode=supportservice

相关文章
|
8月前
|
开发框架 Prometheus 监控
使用阿里云服务网格高效管理LLM流量:(二)流量可观测
本文介绍如何使用阿里云服务网格提供的增强能力灵活、全面的观测集群中的LLM流量。
|
9月前
|
Kubernetes 测试技术 微服务
结合阿里云ASM泳道与Kruise Rollout进行全链路灰度发布
本文将介绍如何结合阿里云ASM泳道与Kruise Rollout进行低成本,自动化的全链路灰度发布。
|
10月前
|
Kubernetes 大数据 调度
使用Kmesh作为阿里云服务网格ASM Sidecarless模式数据面
阿里云服务网格ASM支持Sidecar和Sidecarless两种模式,本文介绍了如何在阿里云ACK集群中部署Kmesh作为Sidecarless数据面并连接ASM控制面。
|
10月前
|
Kubernetes 调度 容器
使用Kmesh作为阿里云服务网格ASM Sidecarless模式数据面
阿里云服务网格ASM支持Sidecar和Sidecarless两种模式,其中Sidecarless模式如Istio Ambient、ACMG和Kmesh等,可减少延迟和资源消耗。Kmesh基于eBPF技术,通过内核空间拦截流量,结合Waypoint Proxy处理L7流量,实现高效的服务治理。本文介绍了如何在阿里云ACK集群中部署Kmesh并连接ASM控制面,包括安装步骤、检查服务状态和流量调度示例。
|
10月前
|
监控 安全 Cloud Native
云原生安全:Istio在微服务架构中的安全策略与实践
【10月更文挑战第26天】随着云计算的发展,云原生架构成为企业数字化转型的关键。微服务作为其核心组件,虽具备灵活性和可扩展性,但也带来安全挑战。Istio作为开源服务网格,通过双向TLS加密、细粒度访问控制和强大的审计监控功能,有效保障微服务间的通信安全,成为云原生安全的重要工具。
177 2
|
11月前
|
Kubernetes 安全 微服务
使用 Istio 缓解电信 5G IoT 微服务 Pod 架构的安全挑战
使用 Istio 缓解电信 5G IoT 微服务 Pod 架构的安全挑战
187 8
|
11月前
|
Kubernetes 负载均衡 安全
Istio在微服务中释放服务网格的力量
Istio在微服务中释放服务网格的力量
240 4
|
Kubernetes 安全 微服务
使用 Istio 缓解电信 5G IoT 微服务 Pod 架构的安全挑战
在5G电信领域,Kubernetes集群中部署微服务至关重要,但也带来了重大的安全挑战。Istio作为一个强大的开源服务网格,能有效地管理这些微服务间的通信,通过其控制平面自动将Sidecar代理注入到各微服务Pod中,确保了安全且高效的通信。Istio的架构由数据平面和控制平面组成,其中Sidecar代理作为Envoy代理运行在每个Pod中,拦截并管理网络流量。此外,Istio支持多种Kubernetes发行版和服务,如EKS等,不仅增强了安全性,还提高了应用性能和可观测性。
209 1
使用 Istio 缓解电信 5G IoT 微服务 Pod 架构的安全挑战
|
负载均衡 监控 安全
Istio:微服务治理的超级英雄,一键解锁你的服务网格超能力,让管理复杂变简单!
【8月更文挑战第31天】随着云原生技术的发展,微服务架构成为主流,但其复杂性与管理难题也随之增加。Istio作为开源服务网格平台,通过独特的数据平面和控制平面设计,实现了微服务通信的透明管理,简化了治理复杂度。本文将对比Istio与传统微服务管理方法,详细介绍Istio的架构及其工作原理,包括Envoy代理、服务发现、负载均衡、流量管理、安全认证以及监控等功能。Istio不仅简化了微服务治理,还提供了强大的流量控制和安全机制,使开发者能更高效地管理应用。
376 2
|
开发者 项目管理 开发工具
震惊!单人开发者如何成功过渡到团队协作?Xamarin 项目管理经验大揭秘,让你的开发之路一帆风顺!
【8月更文挑战第31天】Xamarin 是移动应用开发领域的热门跨平台工具,适用于个人开发者及团队。个人开发时需明确需求、运用版本控制(如 Git)并合理规划项目结构以增强代码可维护性。团队协作时,则需建立有效沟通渠道、统一代码规范、严格版本控制及合理分配任务,以提升开发效率与项目质量。
157 1

热门文章

最新文章