probe(探针)是由 kubelet 对容器执行的定期诊断。要执行诊断,kubelet 既可以在容器内执行代码,也可以发出一个网络请求。容器探针就是用来定期对容器进行健康检查的。
探测类型
针对运行中的容器,kubelet 可以选择是否执行以下三种探针,以及如何针对探测结果作出反应:
livenessProbe
指示容器是否正在运行。如果存活态探测失败,则 kubelet 会杀死容器,并且容器将根据其重启策略决定未来。如果容器不提供存活探针, 则默认状态为 Success。
readinessProbe
指示容器是否准备好为请求提供服。如果就绪态探测失败,端点控制器将从与 Pod 匹配的所有服务的端点列表中删除该 Pod 的 IP 地址。 初始延迟之前的就绪态的状态值默认为 Failure。如果容器不提供就绪态探针,则默认状态为 Success。
startupProbe(1.7+版本)
指示容器中的应用是否已经启动。如果提供了启动探针,则所有其他探针都会被禁用,直到此探针成功为止。如果启动探测失败,kubelet 将杀死容器,而容器依其重启策略进行重启。如果容器没有提供启动探测,则默认状态为 Success。
探针机制
使用探针来检查容器有四种不同的方法。每个探针都必须准确定义为这四种机制中的一种:
exec
在容器内执行指定命令。如果命令退出时返回码为 0 则认为诊断成功。
grpc
使用 gRPC 执行一个远程过程调用。目标应该实现 gRPC 健康检查。如果响应的状态是 “SERVING”,则认为诊断成功。gRPC 探针是一个 Alpha 特性,只有在你启用了 “GRPCContainerProbe” 特性门控时才能使用。
httpGet
对容器的 IP 地址上指定端口和路径执行 HTTP GET 请求。如果响应的状态码大于等于 200 且小于 400,则诊断被认为是成功的。
tcpSocket
对容器的 IP 地址上的指定端口执行 TCP 检查。如果端口打开,则诊断被认为是成功的。如果远程系统(容器)在打开连接后立即将其关闭,这算作是健康的。
探针结果
每次探测都将获得以下三种结果之一:
Success
(成功)容器通过了诊断。Failure
(失败)容器未通过诊断。Unknown
(未知)诊断失败,因此不会采取任何行动。
探针参数
initialDelaySeconds: 5 # 初始化时间5s periodSeconds: 4 # 检测间隔时间4s timeoutSeconds: 1 # 默认检测超时时间为1s failureThreshold: 3 # 默认失败次数为3次,达到3次后重启pod successThreshold: 1 # 默认成功次数为1次,1次监测成功代表成功
使用探针
exec
apiVersion: v1 kind: Pod metadata: name: liveness-test spec: containers: - name: nginx image: nginx:1.19 ports: - containerPort: 80 args: - /bin/sh - -c - sleep 7;nginx -g "daemon off;" # 睡眠7s后启动 imagePullPolicy: IfNotPresent livenessProbe: exec: # 这里使用 exec 执行 shell 命令检测容器状态 command: - ls - /var/run/nginx.pid # 查看是否有pid文件 initialDelaySeconds: 5 # 初始化时间5s periodSeconds: 4 # 检测间隔时间4s timeoutSeconds: 1 # 默认检测超时时间为1s failureThreshold: 3 # 默认失败次数为3次,达到3次后重启pod successThreshold: 1 # 默认成功次数为1次,1 次代表成功
此 Pod 文件中,定义容器启动后,先睡眠 7s,然后启动 Nginx(启动 Nginx 后会生成文件 /var/run/nginx.pid
),定义的探针当容器启动 5s 后执行一次检测,由于此时还在睡眠,所以检测失败,但定义的 failureThreshold 参数表示连续失败三次才会重启容器,所以再过 4s 进行下一次检测,此时由于已经睡够 7s,Nginx 已完成启动,故而探针检测成功。所以 Pod 并不会重启。
tcpSocket
apiVersion: v1 kind: Pod metadata: name: liveness-test spec: containers: - name: nginx image: nginx:1.19 ports: - containerPort: 80 args: - /bin/sh - -c - sleep 7;nginx -g "daemon off;" # 睡眠7s后启动 imagePullPolicy: IfNotPresent livenessProbe: tcpSocket: port: 80 # 检测80端口 initialDelaySeconds: 5 # 初始化时间5s periodSeconds: 4 # 检测间隔时间4s timeoutSeconds: 1 # 默认检测超时时间为1s failureThreshold: 3 # 默认失败次数为3次,达到3次后重启pod successThreshold: 1 # 默认成功次数为1次,1 次代表成功
这个 Pod 和上面的效果是一样的,只不过检测的方式是通过检测 80 端口。
httpGet
apiVersion: v1 kind: Pod metadata: name: liveness-test spec: containers: - name: nginx image: nginx:1.19 ports: - containerPort: 80 args: - /bin/sh - -c - sleep 7;nginx -g "daemon off;" # 睡眠7s后启动 imagePullPolicy: IfNotPresent livenessProbe: httpGet: # httpget方式 port: 80 # 访问的端口 path: /index.html # 访问的路径 initialDelaySeconds: 5 # 初始化时间5s periodSeconds: 4 # 检测间隔时间4s timeoutSeconds: 1 # 默认检测超时时间为1s failureThreshold: 3 # 默认失败次数为3次,达到3次后重启pod successThreshold: 1 # 默认成功次数为1次,1 次代表成功
这个 Pod 和上面的效果是一样的,只不过检测的方式是给 80 端口的 index.html 发送 Get 请求。