通过Kubernetes监控探索应用架构,发现预期外的流量

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
云拨测,每月3000次拨测额度
简介: Kubernetes 监控立足于应用监控之下的 Kubernetes 容器界面和底层操作系统,是 Kubernetes 集群软件栈端到端可观测性的一体化解决方案,在 Kubernetes 监控中可以同时看到关联的所有层的观测数据。我们希望通过 Kubernetes 监控的一系列最佳实践,让大家能够使用 Kubernetes 监控解决 Kubernetes 环境下棘手的可观测问题。

大家好,我是阿里云云原生应用平台的炎寻,很高兴能和大家一起在 Kubernetes 监控系列公开课上进行交流。本次公开课期望能够给大家在 Kubernetes 容器化环境中快速发现和定位问题带来新的解决思路。

 

为什么需要 Kubernetes 监控?


很多同学对应用性能监控应该并不陌生,这类监控主要关注业务应用逻辑、应用框架和语言运行时,监控对象有线程池满,数据库连接无法获取,MySQL, 内存溢出,还有各种调用链异常栈等。随着 Kubernetes 容器化技术带来的云原生技术演进,上层应用的开发和运维变得更加简单,但复杂度是恒定的,上层的复杂度降低必然伴随着底层的复杂度提升。如下图所示,复杂度逐渐转移到容器虚拟化层以及系统调用内核层对各种虚拟化技术的支持。每一层都可能出现问题,且这些问题会影响上层应用。比如容器虚拟化层的 Kubernetes 组件异常,如果调度器异常,Pod 将无法调度影响应用;比如文件系统相关的系统调用异常,上层应用无法读取文件,造成应用问题;比如内核异常,应用进程无法调度完成工作。


7c6e34e5622744d0bf20943d835236dd.png


应用想要健康稳定的运行,需要的是软件栈端到端的健康稳定,虽然现在很多运维团队都搭建了应用监控和系统监控体系,但没有一个监控能够自顶向下、端到端的串联起来各层软件的行为,导致棘手的问题发生时,无从下手处理。在应用层,一个网络请求超时,在客户端和服务端看起来似乎都没有问题,但实际上是网络层包发送 RTT 过高,重传率过高,亦或是 DNS 解析慢,或者是 CNI 插件慢。如何在 Kubernetes 容器化环境下做到端到端的可观测性是Kubernetes 监控出现的意义。

 

Kubernetes 监控立足于应用监控之下的 Kubernetes 容器界面和底层操作系统。在容器虚拟化层,我们通过以下五个数据源获取观测数据,通过 Kubernetes 管控组件 exporter 来获取 Kubernetes 管控组件的观测数据;通过 cAdvisor 获取容器的资源观测数据;通过 kube-state-metrics 获取 Kubernetes 资源的状态数据,还有事件和 Kubernetes 资源的状态以及条件数据。在系统调用层,我们通过 Kprobe/tracepoints  等 Linux tracing 技术获取观测数据;在内核层,我们通过内核可观测模块获取观测数据,然后 Kubernetes 监控通过进程、容器、Kubernetes 资源和业务应用的关联关系向上关联打通应用性能监控,打造端到端的可观测性。所以 Kubernetes 监控是 Kubernetes 集群软件栈端到端可观测性的一体化解决方案,在 Kubernetes 监控中可以同时看到关联的所有层的观测数据。我们希望通过 Kubernetes 监控的一系列最佳实践,让大家能够使用 Kubernetes 监控解决 Kubernetes 环境下棘手的可观测问题。

 

我们也将从两个类型去讲解,第一类是发现问题,主要包含五类问题的发现:应用架构问题、性能问题、资源问题、调度问题和网络问题。第二类是定位问题,主要包含对以上五类发现的问题进行根因定位,并且提供修复建议。


6f0595fc191a4a529d8e6a1cd902ea64.png


探索应用架构,发现预期外的流量

Kubernetes 监控系列公开课第一节课的主题是“如何使用 Kubernetes 监控进行应用架构探索,发现预期外的流量”,包含以下三点内容:


  • 背景介绍:应用架构探索的挑战;
  • 典型场景:在哪些场景下,我们需要进行应用架构的探索;
  • 最佳实践:介绍一种应用架构探索的模式,高效的发现定位问题。

 

一、应用架构探索的挑战


(1)混沌的微服务架构


在 Kubernetes 容器化环境里,微服务架构是最普遍的架构模式。在这种架构下,随着业务发展,一定会有越来越多的微服务,他们之间的关系也会越来越复杂。在复杂度不断增长的情况下,一些常见架构问题就变得困难,比如应用当前运行架构是怎样的,应用下游依赖服务是否正常,应用上游客户端流量是否正常,应用 DNS 解析是否正常,两个应用之间的连通性是否有问题等。因此,我们要进行应用架构探索,往往变得十分困难。

 

(2)多语言


在微服务架构里面,各个微服务通常可以使用不同编程语言,只要暴露出标准的服务即可。那么不同语言如何进行监控,是否有相同的埋点模式,是否对应语言有好用高效的埋点工具呢?代码侵入对性能有什么影响,是否埋点代码会影响业务运行呢?这是多语言场景下面临的观测难题。

 

(3)多通信协议


在微服务架构里面,各个微服务之间的通信可以使用不同通信协议,比如 HTTP、gRPC、Kafka、Dubbo 等,往往我们需要识别这些协议才能快速发现对应依赖服务的问题,但是识别协议意味着理解各个协议,在合适的地方需要进行埋点,不同通信协议如何统一埋点代码侵入,是否会影响业务性能,这是通信协议场景下面临的观测难题。

 

二、典型场景


(1)架构感知


架构感知是根据真实的网络调用,将微服务作为节点,微服务之间的调用作为边,绘制出一张拓扑图。通过对比静态设计的期望架构,我们可以发现问题,比如是不是多了或少了某个微服务,微服务之间的关系是不是正确,通常在新应用上线、新地区开服、整体链路梳理等需要关注结构大图的场景使用。

 

(2)架构异常发现


架构异常发现是指通过自定义架构拓扑图中节点和边的异常规则显示对应的异常颜色,能够快速发现异常的节点和边,通常在整体链路梳理和健康巡检等关注节点和边状态的场景下使用。

 

(3)关联分析


通过异常发现定位到某个节点或者边异常之后,我们通常需要关联关系的切换,快速查看相关节点或者边的上下游以及对应的自身服务实例,一步一步缩小问题范围。

 

三、最佳实践


以上三个典型场景构成了完整的实践流程:通过架构感知观测应用实际运行架构是否和预期一致,如果有结构性问题,需要进一步排查结构异常的服务,如果没有结构性问题,我们可以进行下一步。通过异常发现观测是否有颜色异常的节点和边,如果没有其异常节点和边就最好,否则我们进行下一步,定位到特定的节点和边之后,开始进行关联分析,先分析自身实例是不是有问题,再看上下游是不是有问题。

 

Kubernetes 监控是如何支持最佳实践的呢?首先是Kubernetes监控集群拓扑的架构感知能力。Kubernetes 监控通过关联真实的网络请求绘制出了应用架构拓扑。当前提供 Service 和 Workload 两种视图,前者是 Service 之间的服务调用,后者是 Deployment 、Daemonset、Statefulset 之间的服务调用。

 

进入拓扑图,默认对节点进行分组收敛,集群内按命名空间分组,集群外按服务类型进行分组。展开分组之后可以看到对应的节点和节点关系,点击节点可以看到选定时间范围内的性能指标聚合值和时序值,这些值会按网络协议进行划分,点击边可以看到选定时间范围内的性能指标聚合值和时序值,这些值会按网络协议进行划分,再配合节点过滤,比如查看两个特定命名空间的架构关系,以及节点查询,快速查看一个节点,可以很好的对架构进行探索。


fef1bb38c1144910a9d666708892bbb4.png


再看 Kubernetes 监控的异常发现能力,Kubernetes 监控通过三个维度的异常条件,将节点和边绘制成异常的黄或者红的颜色。具体来说,这三个维度是性能指标异常,比如说错误率大于 10%,平均响应时间大于 500 毫秒;第二,资源指标异常,比如 CPU 使用率大于 70%,内存使用率大于 70%;第三,K8S 管控状态异常,比如 POD 一直无法到达 ready 状态,在分组收起的状态下会显示节点分组的异常占比,展开分组可以看到特定的节点变得异常。通过该能力,我们可以快速发现特定的微服务或者微服务关系的异常。


66e9a904f15a4c0ca47f44208b2a733d.png


Kubernetes 监控还具备关联分析能力,支持查看特定节点的上下游,提供 3D 视图同时查看节点关联的上下游关系和自身的实力状态,可以在一张图进行所有关联数据的探索,极大提升问题定位的效率。


e94762c14d494253b32c7e8c8dcbf487.png


四、Kubernetes  监控的产品价值


阿里云 Kubernetes 监控是一套针对 Kubernetes 集群开发的一站式可观测性产品,它会关联起 Kubernetes 名下的所有指标、链路、日志和事件。主要具备六大特性:


  • 代码无侵入:阿里云 Kubernetes 监控通过旁路技术,不需要对代码进行埋点即可获取到丰富的网络性能数据。
  • 语言无关:阿里云 Kubernetes 监控在内核层进行网络协议解析,支持任意语言、任意框架。
  • 高性能:阿里云 Kubernetes 监控基于 eBPF 技术,能以极低的消耗获取丰富的网络性能数据。
  • 资源关联:阿里云 Kubernetes 监控通过网络拓扑、资源拓扑展示相关资源的关联。
  • 数据多样:阿里云 Kubernetes 监控支持可观测的各种类型数据(监控指标、链路、日志和事件),涵盖端到端的软件栈。
  • 整体性:阿里云 Kubernetes 监控通过控制台的场景设计、关联起架构感知拓扑、应用监控、Prometheus 监控、云拨测、健康巡检、事件中心、日志服务和云服务。

 

那么 Kubernetes 监控、应用性能监控、Prometheus 监控有什么异同点呢?下图清晰的表达了这三者的关系和区别,应用性能监控主要关注应用逻辑,框架与编程语言,而 Kubernetes 监控关注的是系统网络和容器界面,同时会向上关联应用性能监控。Prometheus 监控是基础设施,Kubernetes 监控和应用性能监控的指标类数据将会存储在 Prometheus 监控中。

 

3e51599928d54bf39b0d9048b5b2839a.png

 

所以,想要快速解决 Kubernetes 监测问题,那就立刻开始试用吧!目前 Kubernetes 监测全面免费公测中,点击链接(https://www.aliyun.com/activity/middleware/container-monitoring?spm=5176.20960838.0.0.42b6305eAqJy2n)即可开通试用!也欢迎大家加入答疑交流群进行交流,我们下节课再见。


a33798b1451e4d41b63e5b624e39a935.png

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
1天前
|
Cloud Native 安全 持续交付
构建未来:云原生架构在现代企业中的应用与挑战
【5月更文挑战第12天】 随着数字化转型的浪潮不断冲击传统IT架构,企业亟需灵活、高效且可扩展的技术解决方案以保持竞争力。云原生技术作为一种新兴的系统构建方式,以其独特的弹性、微服务和持续交付等特性,成为推动企业快速响应市场变化的关键因素。本文将深入探讨云原生架构的核心组件,分析其如何促进企业的敏捷性,以及在实施过程中可能遇到的挑战和解决策略,为企业采纳云原生技术提供参考。
|
1天前
|
Cloud Native Devops 持续交付
构建未来:云原生架构在现代企业中的应用与挑战
【5月更文挑战第11天】 随着数字化转型的深入,企业对技术的敏捷性、可扩展性和成本效益提出了更高的要求。云原生架构作为一种新兴的设计理念和实践方法,正逐渐成为推动企业技术革新的关键力量。本文将深入探讨云原生架构的核心组件,包括容器化、微服务、持续集成/持续交付(CI/CD)以及DevOps文化,并分析它们如何共同作用于企业的IT基础设施,实现灵活、高效的运营模式。同时,我们也将识别在采纳云原生技术时面临的主要挑战,并提出相应的解决策略,以帮助企业顺利过渡到云原生时代。
|
2天前
|
存储 运维 监控
Kubernetes 集群的持续监控与性能优化策略
【5月更文挑战第11天】在微服务架构日益普及的当下,Kubernetes 已成为容器编排的事实标准。随着其在不同规模企业的广泛采用,如何确保 Kubernetes 集群的高效稳定运行变得至关重要。本文将探讨一套系统的 Kubernetes 集群监控方法,并结合实践经验分享针对性能瓶颈的优化策略。通过实时监控、日志分析与定期审计的结合,旨在帮助运维人员快速定位问题并提出解决方案,从而提升系统的整体表现。
|
2天前
|
弹性计算 负载均衡 容灾
应用阿里云弹性计算:打造高可用性云服务器ECS架构
阿里云弹性计算助力构建高可用云服务器ECS架构,通过实例分布、负载均衡、弹性IP、数据备份及多可用区部署,确保业务连续稳定。自动容错和迁移功能进一步增强容灾能力,提供全方位高可用保障。
12 0
|
4天前
|
运维 Cloud Native 持续交付
构建未来:云原生架构在现代企业中的应用与挑战
【5月更文挑战第9天】 随着数字化转型的浪潮席卷全球,企业正迅速采纳云原生技术以实现敏捷性、可扩展性和弹性。本文深入探讨了云原生架构的关键组件,包括容器化、微服务、持续集成/持续部署(CI/CD)和DevOps文化,并分析了这些技术如何帮助企业加速产品上市时间,提高运营效率,并最终实现业务目标。同时,文章也识别了企业在采纳云原生实践中可能面临的挑战,如安全性考量、团队技能提升和复杂的网络管理,并提出了相应的解决方案和最佳实践。
|
7天前
|
监控 负载均衡 API
微服务架构在现代企业中的应用与挑战
微服务架构已成为现代企业构建灵活且可扩展软件系统的首选。然而,随着其应用的普及,企业也面临着一系列新的挑战。本篇文章将探讨微服务架构的优势、实施时遇到的问题以及解决这些问题的策略。
|
7天前
|
Kubernetes Cloud Native 持续交付
构建高效云原生应用:Kubernetes与微服务架构的融合
【5月更文挑战第6天】 在数字化转型的浪潮中,企业正迅速采纳云原生技术以实现敏捷性、可扩展性和弹性。本文深入探讨了如何利用Kubernetes这一领先的容器编排平台,结合微服务架构,构建和维护高效、可伸缩的云原生应用。通过分析现代软件设计原则和最佳实践,我们提出了一个综合指南,旨在帮助开发者和系统架构师优化云资源配置,提高部署流程的自动化水平,并确保系统的高可用性。
29 1
|
9天前
|
运维 监控 Kubernetes
Kubernetes 集群的监控与维护策略
【5月更文挑战第4天】 在当今微服务架构盛行的时代,容器化技术已成为软件开发和部署的标准实践。Kubernetes 作为一个开源的容器编排平台,因其强大的功能和灵活性而广受欢迎。然而,随着 Kubernetes 集群规模的扩大,集群的监控和维护变得日益复杂。本文将探讨 Kubernetes 集群监控的重要性,分析常见的监控工具,并提出一套有效的集群维护策略,以帮助运维人员确保集群的健康运行和高可用性。
40 10
|
9天前
|
Kubernetes 监控 Docker
构建高效微服务架构:Docker与Kubernetes的完美搭档
【5月更文挑战第4天】在现代软件开发中,微服务架构已成为实现可扩展、灵活且独立部署服务的流行解决方案。本文将探讨如何利用Docker容器化技术和Kubernetes容器编排平台来构建一个高效的微服务系统。我们将分析Docker和Kubernetes的核心优势,并指导读者如何通过这些工具优化微服务部署、管理和扩展过程。文章还将涉及监控和日志管理策略,以确保系统的健壮性和可靠性。
|
10天前
|
存储 运维 监控
Kubernetes 集群的持续监控与优化策略
【5月更文挑战第3天】在微服务架构和容器化部署日益普及的背景下,Kubernetes 已成为众多企业的首选容器编排平台。然而,随着集群规模的增长和业务复杂度的提升,有效的集群监控和性能优化成为确保系统稳定性和提升资源利用率的关键。本文将深入探讨针对 Kubernetes 集群的监控工具选择、监控指标的重要性解读以及基于数据驱动的性能优化实践,为运维人员提供一套系统的持续监控与优化策略。