K8S Pod 停止不掉一直处于Terminating状态问题解决

简介: 主要是从pod 停止不掉一直处于Terminating到 发现k8s node处于NotReady状态,在发现为什么处于NotReady ,再到发现node 状态因为PLEG is not healthy: pleg was last seen active 等问题

背景

     用户反馈一个问题,在删除任务重建任务会提示资源清理不成功,赶紧登陆服务器一通操作 kubectl发现Pod一直处于Terminating状态:管它三七二十一 用户恢复任务为先,先执行:kubectl delete pod spark-xxx  --grace-period=0 --force --namespace 先强制干掉pod ,让用户能够重新创建pod 再细细分析原因;


排查过程:

先大致确定Terminating状态的pod是哪个,然后确定Pod是处于哪个节点。

可以执行kubectl get pod -A -o wide 查看所有namespace下的pod。

  • 执行:kubectl get nodes -o wide查看k8s中节点的状态。

    发现其中一个节点处于 NotReady状态,断定该节点有点问题。

  • 接着执行查看节点具体状态
kubectl get nodes hwy-hn1-inner-bdi-fp-prd-002  -o yaml
kubectl describe nodes hwy-hn1-inner-bdi-fp-prd-002 

发现一些蛛丝马迹:

  - lastHeartbeatTime: "2021-11-08T02:24:14Z"
    lastTransitionTime: "2021-11-06T00:27:22Z"
    message: 'PLEG is not healthy: pleg was last seen active 50h0m1.184263736s ago;
      threshold is 3m0s'
  • 先网络搜索一番查找 PLEG 是什么问题?得出:

PLEG 全称叫 Pod Lifecycle Event Generator,即 Pod 生命周期事件生成器。实际上它只是 Kubelet 中的一个模块,主要职责就是通过每个匹配的 Pod 级别事件来调整容器运行时的状态,并将调整的结果写入缓存,使 Pod 的缓存保持最新状态。


看来是轮询同步Pod状态到K8S API SERVER 这个过程出错了,继续探索详细导致这个问题的原因。



  • 登陆有问题的工作节点, 进入终端机机器后,查看系统日志通过执行 journalctl 命令,这里解释下:journalctl 用来查询 systemd-journald 服务收集到的日志。systemd-journald 服务是 systemd init 系统提供的收集系统日志的服务。

发现如下日志:

 GenericPLEG: Unable to retrieve pods: rpc error: code = ResourceExhausted desc = grpc: trying to send message larger than max (16783506 vs. 16777216)
 E1102 19:06:57.103683   30435 kubelet.go:1765] skipping pod synchronization - PLEG is not healthy: pleg was last seen active 35h24m17.742968508s ago; 
threshold is 3m0s


看来是采用grpc网络同步数据量太大,超出了最大限度,synch同步数据跳过了,导致API server 三分钟没有收到同步数据,三分钟没有收到pod状态反馈,K8S就直接把这个节点设置为NotReady了,具体pleg实现机制。机制可以查看其他资料这里不进行详述了。


是什么原因导致同步Pod状态数据量太大了?

建议解决问题时先执行下面操作:让该节点上的任务迁移到其他任务,以备后面需要用重启大法

 让问题节点不被调度
$ kubectl cordon work01 
# 驱逐问题节点上所有的pod
$ kubectl drain work01 --ignore-daemonsets --delete-local-data --force


通过执行kubectl get pods -A |grep work节点 发现在该节点有大量处于失败或者终止这状态的pod


  • 查看docker系统占用 docker system df  
  • 运行docker ps  发现有大量容器active状态而且许多都是同意类型的任务类型说明在这个过程中程序大量docker容器的产生导致同步状态数据量太大


另外有可能导致问题的原因:

  • RPC 调用过程中容器运行时响应超时(有可能是性能下降,死锁或者出现了 bug)。
  • 节点上的 Pod 数量太多,导致 relist 无法在 3 分钟内完成。事件数量和延时与 Pod 数量成正比,与节点资源无关。
  • relist 出现了死锁,该 bug 已在 Kubernetes 1.14 中修复。
  • 获取 Pod 的网络堆栈信息时 CNI 出现了 bug。


解决方式:


  • 登入到work节点清除不用的容器残留
    docker system prune

这里清理掉一些残留的容器后,节点状态就恢复正常了,并不需要重启docker和kubelet

如果不行的话就执行:

service docker restart && service kubelet restart





参考文档:


https://www.infoq.cn/article/t_ZQeWjJLGWGT8BmmiU4

https://lattecake.com/post/20149

https://cloud.tencent.com/developer/article/1550038



相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
2月前
|
存储 Kubernetes Docker
【赵渝强老师】Kubernetes中Pod的基础容器
Pod 是 Kubernetes 中的基本单位,代表集群上运行的一个进程。它由一个或多个容器组成,包括业务容器、基础容器、初始化容器和临时容器。基础容器负责维护 Pod 的网络空间,对用户透明。文中附有图片和视频讲解,详细介绍了 Pod 的组成结构及其在网络配置中的作用。
【赵渝强老师】Kubernetes中Pod的基础容器
|
2月前
|
Prometheus Kubernetes 监控
深入探索Kubernetes中的Pod自动扩展(Horizontal Pod Autoscaler, HPA)
深入探索Kubernetes中的Pod自动扩展(Horizontal Pod Autoscaler, HPA)
|
2月前
|
运维 Kubernetes Shell
【赵渝强老师】K8s中Pod的临时容器
Pod 是 Kubernetes 中的基本调度单位,由一个或多个容器组成,包括业务容器、基础容器、初始化容器和临时容器。临时容器用于故障排查和性能诊断,不适用于构建应用程序。当 Pod 中的容器异常退出或容器镜像不包含调试工具时,临时容器非常有用。文中通过示例展示了如何使用 `kubectl debug` 命令创建临时容器进行调试。
|
2月前
|
Kubernetes 调度 容器
【赵渝强老师】K8s中Pod中的业务容器
Pod 是 Kubernetes 中的基本调度单元,由一个或多个容器组成。除了业务容器,Pod 还包括基础容器、初始化容器和临时容器。本文通过示例介绍如何创建包含业务容器的 Pod,并提供了一个视频讲解。示例中创建了一个名为 "busybox-container" 的业务容器,并使用 `kubectl create -f firstpod.yaml` 命令部署 Pod。
|
应用服务中间件 调度 nginx
Kubernetes-项目中pod调度使用法则
前言kubernetes中部署的pod默认根据资源使用情况自动调度到某个节点。可在实际项目的使用场景中都会有更细粒度的调度需求,比如:某些pod调度到指定主机、某几个相关的服务的pod最好调度到一个节点上、Master节点不允许某些pod调度等。
2063 0
|
Kubernetes 应用服务中间件 调度
Kubernetes之Pod调度
Kubernetes调度器根据特定的算法与策略将pod调度到工作节点上。在默认情况下,Kubernetes调度器可以满足绝大多数需求,例如调度pod到资源充足的节点上运行,或调度pod分散到不同节点使集群节点资源均衡等。
1476 0
|
Kubernetes 应用服务中间件 调度
Kubernetes之Pod调度
本文讲的是Kubernetes之Pod调度【编者的话】Kubernetes调度器根据特定的算法与策略将pod调度到工作节点上。在默认情况下,Kubernetes调度器可以满足绝大多数需求,例如调度pod到资源充足的节点上运行,或调度pod分散到不同节点使集群节点资源均衡等。
2810 0
|
7天前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
4天前
|
Kubernetes Ubuntu 网络安全
ubuntu使用kubeadm搭建k8s集群
通过以上步骤,您可以在 Ubuntu 系统上使用 kubeadm 成功搭建一个 Kubernetes 集群。本文详细介绍了从环境准备、安装 Kubernetes 组件、初始化集群到管理和使用集群的完整过程,希望对您有所帮助。在实际应用中,您可以根据具体需求调整配置,进一步优化集群性能和安全性。
36 12
|
9天前
|
Kubernetes 网络协议 应用服务中间件
Kubernetes Ingress:灵活的集群外部网络访问的利器
《Kubernetes Ingress:集群外部访问的利器-打造灵活的集群网络》介绍了如何通过Ingress实现Kubernetes集群的外部访问。前提条件是已拥有Kubernetes集群并安装了kubectl工具。文章详细讲解了Ingress的基本组成(Ingress Controller和资源对象),选择合适的版本,以及具体的安装步骤,如下载配置文件、部署Nginx Ingress Controller等。此外,还提供了常见问题的解决方案,例如镜像下载失败的应对措施。最后,通过部署示例应用展示了Ingress的实际使用方法。
24 2

热门文章

最新文章