Kubernetes组件问题排查的一些方法

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: Kubernetes组件问题排查的一些方法

Kubernetes的基础组件就像一栋房子的地基,它们的重要性不言而喻。作为Kubernetes集群的维护者,经常会遇到组件的问题,那平时是怎么去定位解决的呢?


这里简要分析一下我的排查思路。


  • 通过集群的状态,找到故障的节点或者组件
  • 分析组件的日志
  • 使用pprof分析组件的具体性能


确定范围


Kubernetes的基础组件不多,而且部署也非常简单,所以在定义范围的时候还是很容易的,比如我们在使用kubectl get nodes的时候,如果某个节点的状态是

NotReady,我们脑海中是不是会出现两种可能?


(1)节点的kubelet组件有问题


(2)节点的网络组件有问题


这样一来,大体方向已经确定了,然后就是做排除法了。


这里为何说是排除法?因为在解决问题的途中,我们通常会采用先假设再验证的方式进行,先把所以可能的因素列出来,然后一个一个的去验证去排除,直到解决问题。


分析日志


日志分析是故障排查最直接的方式,大部分问题都能从日志里体现出来,Kubernetes的组件日志查看方式通常有两种:


  • 通过systemd启动的服务,使用journalctl -l -u xxxx
  • 使用静态pod启动的服务,使用kubectl logs -n kube-system $PODNAME --tail 100


当然,很多时候不仅仅是分析它本身的问题,我们还会关注周边的问题,比如基础设施的CPU、内存、IO等情况,这样进行综合考虑来找出问题。


性能分析


为什么把性能分析放到最后呢?


对于大部分人来说,并不擅长,也不喜欢分析组件的性能。第一是时间比较长,第二是要对各个性能指标有一定的了解,第三是学习成本比较大。


众所周知,Kubernetes的版本迭代比较快,基本一年会发2-3个版本,如此快的迭代速度,不排除一些版本中存在BUG,存在一些性能问题。所以在实在没招的情况下,可以尝试对其组件的性能进行分析。


Kubernetes是使用Golang开发,而Golang的pprof是性能分析的利器,提供交互式界面和UI图形化,比较直观,可以很方便的找出问题。除此之外,还可以使用go-torch将profile数据生成火焰图,这样会更直观。


Kubernetes的组件都可以使用pprof进行性能分析,界面在host:port/debug/pprof/


pprof的常用方式


使用交互式命令


  1. 查看堆栈调用信息


go tool pprof http://localhost:8001/debug/pprof/heap


  1. 查看 30 秒内的 CPU 信息


go tool pprof http://localhost:8001/debug/pprof/profile?seconds=30


  1. 查看 goroutine 阻塞


go tool pprof http://localhost:8001/debug/pprof/block


  1. 收集 5 秒内的执行路径


go tool pprof http://localhost:8001/debug/pprof/trace?seconds=5


  1. 互斥持有者的堆栈跟踪


go tool pprof http://localhost:8001/debug/pprof/mutex


通过UI界面


UI分析工具使用起来相对比较麻烦,我们需要先导出文件,然后再使用go tool工具起服务进行分析。


比如我们导出kube-scheduler的堆栈信息。


curl -sK -v http://localhost:10251/debug/pprof/heap > heap.out


然后使用go tool工具起一个服务,如下:


go tool pprof -http=0.0.0.0:8989 heap.out


然后就可以在浏览器上看到具体的堆栈信息图了。


640.png


注意,这里需要在服务端安装graphviz组件,各种操作系统的安装方式见[3]。


UI界面主要的菜单以及其功能简要介绍如下:


  • VIEW:查看模式


  • Top:从高到底排序查看
  • Graph:默认的模式,以关系图形式查看
  • Flame Graph:以火焰图形式查看
  • Peek:排序查看,展示的信息更多
  • Source:排序查看,带源码标注
  • Disassemble:现实所有总量


  • SAMPLE:为VIEW提供查看模式


  • alloc_objects:已分配的对象总量(不管是否已释放
  • alloc_space:已分配的内存总量(不管是否已释放)
  • inuse_objects:已分配但尚未释放的对象数量
  • inuse_sapce:已分配但尚未释放的内存数量


  • REFINE:提供筛选能力


上面简单介绍了pprof的基本使用方法,下面就Kubernetes的各个组件进行简单的分析,这里只就CPU信息进 行获取以及展示。


注意:由于版本原因,有的版本默认开启了pprof,有的版本则没有,如果没有开启的,需要自行去开启,参数基本都是profiling: true,具体的信息可以到官网进行查看[4]。


分析kube-apiserver


(1)使用kubectl proxy启动一个代理


kubectl proxy


(2)另起一个终端,获取CPU信息


curl -sK -v  http://localhost:8001/debug/pprof/profile >apiserver-cpu.out


(3)使用go tool工具启动服务


go tool pprof -http=0.0.0.0:8989 apiserver-cpu.out


(4)在浏览器上进行查看


640.png


分析kube-scheduler


(1)获取CPU的信息


curl -sK -v  http://localhost:10251/debug/pprof/profile >scheduler-cpu.out


(2)使用go tool工具启动服务


go tool pprof -http=0.0.0.0:8989 scheduler-cpu.out


(3)在浏览器进行查看


640.png


分析kube-controller-manager


(1)获取CPU的信息


curl -sK -v  http://localhost:10252/debug/pprof/profile >controller-cpu.out


(2)使用go tool工具启动服务


go tool pprof -http=0.0.0.0:8989 controller-cpu.out


(3)在浏览器进行查看


640.png


分析kubelet


(1)使用kubectl proxy启动一个代理


kubectl proxy


(2)另起一个终端,获取CPU信息


curl -sK -v  http://127.0.0.1:8001/api/v1/nodes/k8s-node04-138/proxy/debug/pprof/profile >kubelet-cpu.out


(3)使用go tool工具启动服务


go tool pprof -http=0.0.0.0:8989 kubelet-cpu.out


(4)在浏览器上进行查看


640.png


能够抓到具体的性能数据才是第一步,后续的具体分析才会帮助我们找到问题。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
5月前
|
Kubernetes Ubuntu Windows
【Azure K8S | AKS】分享从AKS集群的Node中查看日志的方法(/var/log)
【Azure K8S | AKS】分享从AKS集群的Node中查看日志的方法(/var/log)
150 3
|
5月前
|
Kubernetes API 调度
Kubernetes 架构解析:理解其核心组件
【8月更文第29天】Kubernetes(简称 K8s)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用。它提供了一个可移植、可扩展的环境来运行分布式系统。本文将深入探讨 Kubernetes 的架构设计,包括其核心组件如何协同工作以实现这些功能。
433 0
|
3月前
|
Kubernetes 监控 Cloud Native
|
3月前
|
负载均衡 Kubernetes 区块链
随机密码生成器+阿里k8s负载均衡型服务加证书方法+移动终端设计+ico生成器等
随机密码生成器+阿里k8s负载均衡型服务加证书方法+移动终端设计+ico生成器等
74 1
|
4月前
|
Kubernetes 容器
Kubernetes附加组件Dashboard部署实战篇
关于如何在Kubernetes集群中部署和配置Dashboard组件的详细实战指南,涵盖了从创建证书、部署Dashboard、设置服务访问到登录认证的完整流程。
565 0
Kubernetes附加组件Dashboard部署实战篇
|
5月前
|
存储 Kubernetes API
在K8S中,Kubernetes的组件有哪些?
在K8S中,Kubernetes的组件有哪些?
|
5月前
|
Kubernetes Docker Perl
在K8S中,如果是因为开发写的镜像问题导致pod起不来该怎么排查?
在K8S中,如果是因为开发写的镜像问题导致pod起不来该怎么排查?
|
5月前
|
Kubernetes 安全 Docker
在K8S中,在服务上线的时候Pod起不来怎么进行排查?
在K8S中,在服务上线的时候Pod起不来怎么进行排查?
|
5月前
|
Kubernetes 网络安全 容器
在K8S中,有个服务使用service的nodeport进行暴露,发现访问不到如何排查?
在K8S中,有个服务使用service的nodeport进行暴露,发现访问不到如何排查?
|
5月前
|
Kubernetes 监控 Perl
在K8S中,Pod⼀直处于Init状态,如何排查?
在K8S中,Pod⼀直处于Init状态,如何排查?