往期精彩文章 :
- 提升CKA考试胜算:一文带你全面了解RBAC权限控制!
- 揭秘高效运维:如何用kubectl top命令实时监控K8s资源使用情况?
- CKA认证必备:掌握k8s网络策略的关键要点
- 提高CKA认证成功率,CKA真题中的节点维护全攻略!
- 数据无忧,一学就会:掌握CKA认证必备的etcd备份与还原秘籍!
- 提升你的云技能:深入了解CKA认证之k8s升级秘籍!
- 揭秘CKA认证:Service四层代理的神秘面纱
- 提升CKA认证成功率:Kubernetes Ingress七层代理全攻略!
- CKA考生注意:这些Deployment要点能助你一臂之力!
- 从NodeSelector到NodeAffinity:探索Kubernetes节点亲和性的进化之路
- 提升CKA考试效率:精准统计Ready状态Node节点的实用攻略
- CKA考试必备:解锁Pod封装多容器的高级技巧!
- PV与PVC知多少?解锁CKA认证考点攻略!
- CKA备考攻略:掌握Pod日志收集,事半功倍的秘诀!
- 提升日志管理效率:掌握CKA认证中的边车容器技巧
Kubernetes是一个强大的容器编排系统,但在运行过程中,节点故障可能会发生。本教程将引导您深入了解和排查K8S节点故障的常见问题,以确保集群的可靠性和稳定性。
步骤一:检查节点状态
首先,通过以下命令检查节点的整体状态:
kubectl get nodes
执行上述命令,输入结果如下图:
确认所有节点都处于Ready
状态。如果有节点处于NotReady
状态,可以运行以下命令查看详细信息:
kubectl describe node <node-name>
例如,现在要查看node01节点详细信息,如下图:
步骤二:查看事件
使用以下命令查看集群中的事件,以了解任何异常情况:
kubectl get events
执行上述命令,输入结果如下图:
步骤三:系统资源检查
确保节点上的系统资源(CPU、内存、磁盘空间)足够。可以通过以下命令检查:
kubectl describe node <node-name> | grep Allocated -A 5
执行上述命令,输入结果如下图:
步骤四:网络排查
确认网络插件状态
检查网络插件是否正常运行。常见的网络插件有Flannel、Calico等。使用以下命令检查:
kubectl get pods -n kube-system
执行上述命令,输入结果如下图:
检查节点之间的网络连通性
确认节点之间的网络通信是否正常。使用工具如ping
、traceroute
等检查节点间的连通性。例如,下图是从node01
节点ping
控制节点controlplane
步骤五:检查容器运行时状态
如果使用Docker作为容器运行时,请检查Docker容器的状态:
docker ps docker logs <container-id>
如果使用了containerd
为容器运行时,请检查containerd
容器的状态,如下图:
步骤六:检查kubelet服务状态
确保kubelet服务在节点上正常运行。运行以下命令:
systemctl status kubelet
检查输出以确保kubelet服务处于激活(active)状态。如果kubelet服务未激活,运行以下命令重启kubelet服务:
sudo systemctl restart kubelet
步骤七:重启故障节点
在确保不影响生产负载的情况下,可以尝试重启故障的节点。使用以下命令:
kubectl drain <node-name> --ignore-daemonsets kubectl delete node <node-name>
结论
通过以上步骤,您应该能够诊断并解决Kubernetes节点故障的常见问题。请注意,在进行操作之前,确保已经了解操作的潜在风险,并在非生产环境中进行测试。保持对K8S集群的定期监控,以及学习并熟练使用K8S提供的工具,将有助于更好地管理和维护您的容器化应用程序。
CKA真题
真题截图
中文解析
切换 k8s 集群环境:
kubectl config use-context wk8s
Task:
一个名为 wk8s-node-0 的节点状态为 NotReady,让其他恢复至正常状态,并确认所有的更改开机自动完成。
- 可以使用以下命令,通过 ssh 连接到
wk8s-node-0
节点:ssh wk8s-node-0
- 可以使用以下命令,在该节点上获取更高权限:
sudo -i
官方参考文档
做题解答
- 切换k8s集群环境
kubectl config use-context wk8s
- SSH登录到
wk8s-node-0
的节点,并获取最高权限
ssh wk8s-node-0 sudo -i
- 检查
kubelet
的状态
systemctl status kubelet
- 重启
kubelet
,并设置开机自启动
systemctl enable kubelet systemctl status kubelet