PLEG is not healthy?幕后黑手居然是它!

简介: PLEG is not healthy?幕后黑手居然是它!

问题描述


环境 :ubuntu18.04,自建集群k8s 1.18 ,容器运行时docker。


现象:某个Node频繁NotReady,kubectl describe该Node,出现“PLEG is not healthy: pleg was last seen active 3m46.752815514s ago; threshold is 3m0s”错误,频率在5-10分钟就会出现一次。


我们首先要明白PLEG是什么?


PLEG 全称叫 Pod Lifecycle Event Generator,即 Pod 生命周期事件生成器。实际上它只是 Kubelet 中的一个模块,主要职责就是通过每个匹配的 Pod 级别事件来调整容器运行时的状态,并将调整的结果写入缓存,使 Pod 的缓存保持最新状态。先来聊聊 PLEG 的出现背景。在 Kubernetes 中,每个节点上都运行着一个守护进程 Kubelet 来管理节点上的容器,调整容器的实际状态以匹配 spec 中定义的状态。具体来说,Kubelet 需要对两个地方的更改做出及时的回应:


  1. Pod spec 中定义的状态
  2. 容器运行时的状态


对于 Pod,Kubelet 会从多个数据来源 watch Pod spec 中的变化。对于容器,Kubelet 会定期(例如,10s)轮询容器运行时,以获取所有容器的最新状态。随着 Pod 和容器数量的增加,轮询会产生不可忽略的开销,并且会由于 Kubelet 的并行操作而加剧这种开销(为每个 Pod 分配一个 goruntine,用来获取容器的状态)。轮询带来的周期性大量并发请求会导致较高的 CPU 使用率峰值(即使 Pod 的定义和容器的状态没有发生改变),降低性能。最后容器运行时可能不堪重负,从而降低系统的可靠性,限制 Kubelet 的可扩展性。为了降低 Pod 的管理开销,提升 Kubelet 的性能和可扩展性,引入了 PLEG,改进了之前的工作方式:


  • 减少空闲期间的不必要工作(例如 Pod 的定义和容器的状态没有发生更改)。
  • 减少获取容器状态的并发请求数量。


所以我们看这一切都离不开kubelet与pod的容器运行时。


5f51fcac203cb0c91f33456343329f52.png


一方面,kubelet扮演的是集群控制器的角色,它定期从API Server获取Pod等相关资源的信息,并依照这些信息,控制运行在节点上Pod的执行;


另外一方面,kubelet作为节点状况的监视器,它获取节点信息,并以集群客户端的角色,把这些状况同步到API Server。在这个问题中,kubelet扮演的是第二种角色。Kubelet会使用上图中的NodeStatus机制,定期检查集群节点状况,并把节点状况同步到API Server。而NodeStatus判断节点就绪状况的一个主要依据,就是PLEG。


PLEG是Pod Lifecycle Events Generator的缩写,基本上它的执行逻辑,是定期检查节点上Pod运行情况,如果发现感兴趣的变化,PLEG就会把这种变化包装成Event发送给Kubelet的主同步机制syncLoop去处理。但是,在PLEG的Pod检查机制不能定期执行的时候,NodeStatus机制就会认为,这个节点的状况是不对的,从而把这种状况同步到API Server。


整体的工作流程如下图所示,


虚线部分是 PLEG 的工作内容。


2640fd359766c639ef6a25e3195557fa.png


以node notready 这个场景为例,来讲解PLEG:


Kubelet中的NodeStatus机制会定期检查集群节点状况,并把节点状况同步到API Server。而NodeStatus判断节点就绪状况的一个主要依据,就是PLEG。


PLEG定期检查节点上Pod运行情况,并且会把pod 的变化包装成Event发送给Kubelet的主同步机制syncLoop去处理。但是,在PLEG的Pod检查机制不能定期执行的时候,NodeStatus机制就会认为这个节点的状况是不对的,从而把这种状况同步到API Server,我们就会看到 not ready 。


PLEG有两个关键的时间参数,一个是检查的执行间隔,另外一个是检查的超时时间。以默认情况为准,PLEG检查会间隔一秒,换句话说,每一次检查过程执行之后,PLEG会等待一秒钟,然后进行下一次检查;而每一次检查的超时时间是三分钟,如果一次PLEG检查操作不能在三分钟内完成,那么这个状况,会被NodeStatus机制当做集群节点NotReady的凭据,同步给API Server。


PLEG Start就是启动一个协程,每个relistPeriod(1s)就调用一次relist,根据最新的PodStatus生成PodLiftCycleEvent。relist是PLEG的核心,它从container runtime中查询属于kubelet管理containers/sandboxes的信息,并与自身维护的 pods cache 信息进行对比,生成对应的 PodLifecycleEvent,然后输出到 eventChannel 中,通过 eventChannel 发送到 kubelet syncLoop 进行消费,然后由 kubelet syncPod 来触发 pod 同步处理过程,最终达到用户的期望状态。


PLEG is not healthy的原因


这个报错清楚地告诉我们,容器 runtime 是不正常的,且 PLEG 是不健康的。这里容器 runtime 指的就是 docker daemon 。Kubelet 通过操作 docker daemon 来控制容器的生命周期。而这里的 PLEG,指的是 pod lifecycle event generator。PLEG 是 kubelet 用来检查 runtime 的健康检查机制。这件事情本来可以由 kubelet 使用 polling 的方式来做。但是 polling 有其高成本的缺陷,所以 PLEG 应用而生。PLEG 尝试以一种“中断”的形式,来实现对容器 runtime 的健康检查,虽然实际上,它同时用了 polling 和”中断”这样折中的方案。


从 Docker 1.11 版本开始,Docker 容器运行就不是简单通过 Docker Daemon 来启动了,而是通过集成 containerd、runc 等多个组件来完成的。虽然 Docker Daemon 守护进程模块在不停的重构,但是基本功能和定位没有太大的变化,一直都是 CS 架构,守护进程负责和 Docker Client 端交互,并管理 Docker 镜像和容器。现在的架构中组件 containerd 就会负责集群节点上容器的生命周期管理,并向上为 Docker Daemon 提供 gRPC 接口。


ca4e4cb6d8f61f62ab970cd8340a2f78.png


PLEG在每次迭代检查中会调用runc的 relist() 函数干的事情,是定期重新列出节点上的所有容器,并与上一次的容器列表进行对比,以此来判断容器状态的变换。相当于docker ps来获取所有容器,在通过docker Inspect来获取这些容器的详细信息。在有问题的节点上,通过 docker ps命令会没有响应,这说明上边的报错是准确的。


经常出现的场景


出现 pleg not healthy,一般有以下几种可能:


  • 容器运行时无响应或响应超时,如 docker进程响应超时(比较常见)
  • 该节点上容器数量过多,导致 relist 的过程无法在 3 分钟内完成
  • relist 出现了死锁,该 bug 已在 Kubernetes 1.14 中修复。
  • 网络


排查处理过程描述


1.我们在问题节点上执行top,发现有进程名为scope的进程cpu占用率一直是100%。通过翻阅资料得知 systemd.scope:范围(scope)单元并不通过单元文件进行配置, 而是仅能以编程的方式通过 systemd D-Bus 接口创建。范围单元的名称都以 ".scope" 作为后缀。与服务(service)单元不同,范围单元用于管理 一组外部创建的进程, 它自身并不派生(fork)任何进程。范围(scope)单元的主要目的在于以分组的方式管理系统服务的工作进程。2.在继续执行在有问题的节点上,通过 docker ps命令会没有响应。说明容器 runtime也是有问题的。那容器 runtime与systemd有不有关系呢?3.我们通过查阅到阿里的一篇文章,阿里巴巴 Kubernetes 集群问题排查思路和方法。找到了关系,有兴趣的可以根据文末提供的链接去细致了解。以下是在该文章中截取的部分内容。


什么是D-Bus呢?


通过阿里巴巴 Kubernetes 集群问题排查思路和方法[1]中如下描述:在 Linux 上,dbus 是一种进程间进行消息通信的机制。


ae5f87a7b5be2687c33365e6513fd768.png


RunC 请求 D-Bus


容器 runtime 的 runC 命令,是 libcontainer 的一个简单的封装。这个工具可以用来管理单个容器,比如容器创建和容器删除。在上节的最后,我们发现 runC 不能完成创建容器的任务。我们可以把对应的进程杀掉,然后在命令行用同样的命令启动容器,同时用 strace 追踪整个过程。


79fdc99015b7f35630f4dcbc17e6d993.png


分析发现,runC 停在了向带有 org.free 字段的 dbus socket 写数据的地方。


解决问题


最后可以断定是systemd的问题,我们用 systemctl daemon-reexec 来重启 systemd,问题消失了。所以更加确定是systemd的问题。


具体原因大家可以参考:https://www.infoq.cn/article/t_ZQeWjJLGWGT8BmmiU4这篇文章。


根本上解决问题是:将systemd升级到 v242-rc2,升级后需要重启操作系统。(https://github.com/lnykryn/systemd-rhel/pull/322


总结


PLEG is not healthy的问题居然是因为systemd导致的。最后通过将systemd升级到 v242-rc2,升级后需要重启操作系统。(https://github.com/lnykryn/systemd-rhel/pull/322) 参考资料

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
代码之禅:在技术的浪潮中寻找内心的平静
【5月更文挑战第20天】 在数字化时代的洪流中,技术感悟成为了每个从业者心中的一盏灯塔。本文将探讨如何在快节奏、高压力的技术行业中保持个人的专业性与内心平静,并实现职业生涯的持续成长。通过分享个人经验与行业内的最佳实践,我们将一同探索在不断变化的技术世界中如何维持自我平衡,以及如何将这种平衡转化为技术创新和解决问题的动力。
|
8月前
|
设计模式 缓存 安全
代理模式揭秘-软件世界的“幕后黑手”
在这篇精细剖析的文章中,我们将探索代理模式这一软件设计的神秘法术,揭开其定义、核心思想及各种代理(静态代理、动态代理和虚拟代理)的神秘面纱。通过直观的结构图和有趣的场景实例,我们比较了使用和不使用代理模式的实现差异,深入理解代理在软件设计中扮演的关键角色。 接下来,文章将带你进入现实世界,在应用与实战中实地展示代理模式的威力。我们将讲述如何巧妙地使用代理来优化软件的设计,并分享一些鲜活的工作案例,帮助读者更好地把握代理模式带来的优势和必须注意的缺点。 最后,我们讨论了实施代理模式时应避免的陷阱和广为人...
637 0
代理模式揭秘-软件世界的“幕后黑手”
|
程序员
弹窗!到底谁是幕后黑手?
弹窗!到底谁是幕后黑手?
106 0
弹窗!到底谁是幕后黑手?
|
程序员
程序员十大常规内卷操作,你学废了吗?
现阶段内卷已经成为互联网行业的专有名词,在很多公司,内卷的程度则代表着员工的努力程度,本文尝试教授十招程序员内卷操作,学完过后,帮助你干啥啥不行,内卷第一名。
|
机器人 供应链 人工智能
擎朗李通:跨过服务机器人应用之殇,产业链是深坑 |【 远望实战派】
伴随海底捞智慧餐厅的亮相,最近擎朗机器人热刷了很多人的朋友圈。到底服务机器人是一个店家用来营销的噱头,还是真已到了替代人工的应用临界,我们这一期与擎朗机器人创始人李通聊聊服务机器人如何才能跨过应用之殇。
450 0
|
区块链 虚拟化
十问区块链!繁华幕后暗藏哪些“玄机”?
借用黑格尔的一句名言:“存在即合理”。我认为目前区块链市场的混乱,是新生事物必须要经历的一个过程。
1152 0

相关实验场景

更多