一文掌握k8s的健康检查探针-阿里云开发者社区

一文掌握k8s的健康检查探针

2026-01-19 563

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 容器健康检查探针用于检测应用运行状态，确保服务高可用。Kubernetes提供存活、就绪、启动三种探针，通过HTTP、TCP或命令方式定期检查，配合各参数阈值实现自动恢复与流量控制，避免异常实例影响业务。

简介

容器的健康检查探针是指容器运行过程中，需要定时检查容器中应用健康状况。
若未配置健康检查机制，当容器内的应用程序发生异常时，Pod无法感知该异常，也不会自动执行重启操作进行恢复。这样可能导致Pod状态显示为“运行中”，但实际上容器内的应用已处于不可用或异常状态。

官方文档：https://kubernetes.io/docs/tasks/configure-pod-container/configure-liveness-readiness-startup-probes/

Kubernetes提供了三种健康检查探针：

存活探针[livenessProbe]：用于检测容器是否正常，类似于执行ps命令检查进程是否存在。如果容器的存活检查失败，集群会对该容器执行重启操作，否则不执行任何操作。
就绪探针[readinessProbe]：探测应用业务是否已经就绪,用于判断容器中的业务是否已就绪，以决定是否将流量转发至当前实例。在某些场景中，应用程序虽然进程已启动，但由于需要依赖外部服务的初始化，尚未具备对外提供服务的能力。此时，通过就绪检查可以避免将流量路由至尚未就绪的实例。如果容器的就绪检查失败，CCE集群会临时将其从服务端点中移除，屏蔽外部请求的访问。而一旦检查通过，容器即被视为就绪，可正常接收流量。
启动探针[startupProbe]：用于检测应用是否已启动。启动探针检测通过后，集群才会开始执行存活检查和就绪检查，从而确保这些检查不会影响应用程序的启动。该探针适用于启动时间较长的容器，能够有效避免容器在初始化尚未完成时被误判为异常，从而被提前终止。

健康检查方式

HTTP请求方式[httpGet]:探针往容器发送HTTP请求，如果探针收到2xx或3xx的返回状态码，说明容器是健康。HTTP请求检查（httpGet）：适用于提供HTTP/HTTPS服务的容器。进行该配置后，集群将周期性地对该容器发起HTTP/HTTPS GET请求，如果HTTP/HTTPS response返回码属于200~399范围，则证明探测成功，否则探测失败。使用该方式时，必须指定容器监听的端口。
TCP请求方式[tcpSocket]：探针使用TCP套接字。使用这种配置时，kubelet 会尝试在指定端口和容器建立套接字连接。如果能建立连接，这个容器就被看作是健康的，如果不能则这个容器就被看作是有问题的。适用于提供TCP协议通信的容器（如数据库、缓存、自定义TCP服务等）。集群会周期性地与该容器建立TCP连接，如果连接成功，则证明探测成功，否则探测失败。使用该方式时，必须指定容器监听的端口。
命令行脚本[exec]：探针执行容器中的命令并检查命令退出的状态码，如果状态码为0则说明健康。要求用户指定一个容器内的可执行命令，集群会周期性地在容器内执行该命令，如果退出码状态为0则检查成功，否则检查失败。

注意：

在高负载环境中，建议避免使用执行命令检查方式，执行命令会消耗系统资源，如果系统资源紧张（如CPU负载高、文件系统被锁住等）可能导致健康检查超时失败。如果需要使用执行命令检查，您可以参考以下建议：

增加失败次数和超时时间配置，避免因为突发性的资源竞争导致健康检查超时失败，但是该方式可能会降低业务敏感度，请合理配置。
通过合理规划业务容器或者系统插件的CPU Limit配置，避免出现因CPU时间片抢占导致内核锁长期不释放影响同节点其它容器执行exec探测的问题。

各参数指标含义：

参数	名称	介绍
periodSeconds	检测周期	表示两次检测的间隔时间，单位为秒。例如，设置为30，表示每30秒检测一次。
initialDelaySeconds	启动延时	表示成功运行后多久时间开始检测，是预留给业务程序启动的时间，单位为秒。例如，设置为30，表明容器启动后30秒开始健康检查。
timeoutSeconds	超时时间	探针超时时间，单位为秒。若设置为0或不设置，默认超时等待时间为1秒。例如，设置为10，表明执行健康检查的超时等待时间为10秒。如果超过这个时间，本次健康检查就被视为失败。
successThreshold	成功阈值	表示服务检测失败后，转变为“健康”所需要的最小连续成功次数。该参数的默认值为1，且最小允许值为1。在存活探针和启动探针中，这个值必须为1。例如，设置为1时，表明健康检查失败后，仅需连续成功1次，即可将工作负载恢复为正常状态。
failureThreshold	最大失败次数	表示在容器被判定为“不健康”之前，允许连续探测失败的次数。该参数默认值为 3，最小值为 1。 1.对于存活探针：当连续失败次数达到该阈值后，容器将被标记为不健康，且kubelet会重启容器。 2.对于就绪探针：当连续失败次数达到阈值后，Pod会被标记为未就绪，并从Service的Endpoints 中移除，停止接收新流量，且容器不会被重启。

YAML示例

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness-http
spec:
  containers:
  - name: liveness
    image: <image_address>
    args:
    - /server
    livenessProbe:                 # 存活探针
      httpGet:                     # 以HTTP请求检查为例
        path: /healthz             # HTTP检查路径为/healthz
        port: 80                   # 检查端口为80
        httpHeaders:               # 可选，请求头名称为Custom-Header，对应的值为Awesome
        - name: Custom-Header
          value: Awesome
      initialDelaySeconds: 3
      periodSeconds: 3
    readinessProbe:                # 就绪探针
      exec:                        # 以执行命令检查为例
        command:                   # 需要执行的命令
          - cat
          - /tmp/healthy
      initialDelaySeconds: 5
      periodSeconds: 5
    startupProbe:                  # 启动探针
      httpGet:                     # 以HTTP请求检查为例
        path: /healthz             # HTTP检查路径为/healthz
        port: 80                   # 检查端口为80
      failureThreshold: 30
      periodSeconds: 10

通过xkube进行设置

通过多集群k8s管理平台xkube的功能可以轻松的设置探针，xkube安装部署参考:https://blog.csdn.net/weixin_56364253/article/details/156390146

功能参考下图：

一文掌握k8s的健康检查探针

简介

Kubernetes提供了三种健康检查探针：

健康检查方式

各参数指标含义：

YAML示例

通过xkube进行设置

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

一文掌握k8s的健康检查探针

简介

Kubernetes提供了三种健康检查探针：

健康检查方式

各参数指标含义：

YAML示例

通过xkube进行设置

热门文章

最新文章

相关电子书