避免业务中断,K8s节点故障排查攻略,速来围观!

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 避免业务中断,K8s节点故障排查攻略,速来围观!

往期精彩文章 :

Kubernetes是一个强大的容器编排系统,但在运行过程中,节点故障可能会发生。本教程将引导您深入了解和排查K8S节点故障的常见问题,以确保集群的可靠性和稳定性。

步骤一:检查节点状态

首先,通过以下命令检查节点的整体状态:

kubectl get nodes

执行上述命令,输入结果如下图:

确认所有节点都处于Ready状态。如果有节点处于NotReady状态,可以运行以下命令查看详细信息:

kubectl describe node <node-name>

例如,现在要查看node01节点详细信息,如下图:

步骤二:查看事件

使用以下命令查看集群中的事件,以了解任何异常情况:

kubectl get events

执行上述命令,输入结果如下图:

步骤三:系统资源检查

确保节点上的系统资源(CPU、内存、磁盘空间)足够。可以通过以下命令检查:

kubectl describe node <node-name> | grep Allocated -A 5

执行上述命令,输入结果如下图:

步骤四:网络排查

确认网络插件状态

检查网络插件是否正常运行。常见的网络插件有Flannel、Calico等。使用以下命令检查:

kubectl get pods -n kube-system

执行上述命令,输入结果如下图:

检查节点之间的网络连通性

确认节点之间的网络通信是否正常。使用工具如pingtraceroute等检查节点间的连通性。例如,下图是从node01节点ping控制节点controlplane

步骤五:检查容器运行时状态

如果使用Docker作为容器运行时,请检查Docker容器的状态:

docker ps
docker logs <container-id>

如果使用了containerd为容器运行时,请检查containerd容器的状态,如下图:

步骤六:检查kubelet服务状态

确保kubelet服务在节点上正常运行。运行以下命令:

systemctl status kubelet

检查输出以确保kubelet服务处于激活(active)状态。如果kubelet服务未激活,运行以下命令重启kubelet服务:

sudo systemctl restart kubelet

步骤七:重启故障节点

在确保不影响生产负载的情况下,可以尝试重启故障的节点。使用以下命令:

kubectl drain <node-name> --ignore-daemonsets
kubectl delete node <node-name>

结论

通过以上步骤,您应该能够诊断并解决Kubernetes节点故障的常见问题。请注意,在进行操作之前,确保已经了解操作的潜在风险,并在非生产环境中进行测试。保持对K8S集群的定期监控,以及学习并熟练使用K8S提供的工具,将有助于更好地管理和维护您的容器化应用程序。

CKA真题

真题截图

中文解析

切换 k8s 集群环境: kubectl config use-context wk8s

Task:

一个名为 wk8s-node-0 的节点状态为 NotReady,让其他恢复至正常状态,并确认所有的更改开机自动完成。

  • 可以使用以下命令,通过 ssh 连接到 wk8s-node-0 节点:ssh wk8s-node-0
  • 可以使用以下命令,在该节点上获取更高权限:sudo -i

官方参考文档

安全地清空一个节点

做题解答

  1. 切换k8s集群环境
kubectl config use-context wk8s
  1. SSH登录到wk8s-node-0 的节点,并获取最高权限
ssh wk8s-node-0
sudo -i
  1. 检查kubelet的状态
systemctl status kubelet
  1. 重启kubelet,并设置开机自启动
systemctl enable kubelet
systemctl status kubelet
相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
1月前
|
运维 Ubuntu Linux
k8s-CKS真题-故障排查Sysdig & falco
k8s-CKS真题-故障排查Sysdig & falco
134 0
|
1月前
|
数据库 存储 监控
什么是 SAP HANA 内存数据库 的 Delta Storage
什么是 SAP HANA 内存数据库 的 Delta Storage
什么是 SAP HANA 内存数据库 的 Delta Storage
|
27天前
|
容器 Perl Kubernetes
深入 Kubernetes 网络:实战K8s网络故障排查与诊断策略
本文介绍了Kubernetes网络的基础知识和故障排查经验,重点讨论了私有化环境中Kubernetes网络的挑战。首先,文章阐述了Kubernetes网络模型的三大核心要素:Pod网络、Service网络和CNI,并强调了其在容器通信和服务发现中的作用。接着,通过三个具体的故障案例,展示了网络冲突、主节点DNS配置更改导致的服务中断以及容器网络抖动问题的解决过程,强调了网络规划、配置管理和人员培训的重要性。最后,提到了KubeSkoop exporter工具在监控和定位网络抖动问题中的应用。通过这些案例,读者可以深入了解Kubernetes网络的复杂性,并学习到实用的故障排查方法。
146283 18
|
29天前
|
运维 Kubernetes 调度
【kubernetes】关于k8s集群的污点、容忍、驱逐以及k8s集群故障排查思路
【kubernetes】关于k8s集群的污点、容忍、驱逐以及k8s集群故障排查思路
|
11天前
|
Kubernetes API 调度
Pod无法调度到可用的节点上(K8s)
完成k8s单节点部署后,创建了一个pod进行测试,后续该pod出现以下报错: Warning FailedScheduling 3h7m (x3 over 3h18m) default-scheduler 0/1 nodes are available: 1 node(s) had untolerated taint {node-role.kubernetes.io/control-plane: }. preemption: 0/1 nodes are available: 1 Preemption is not helpful for scheduling..
50 0
|
14天前
|
SQL Kubernetes 数据处理
实时计算 Flink版产品使用问题之在 flink-conf.yaml 中定义的配置在某些情况下未被正确应用到 K8s 上运行的任务管理器(JobManager)和任务管理节点(TaskManager),是什么导致的
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
1月前
|
运维 Kubernetes Shell
Kubernetes详解(十二)——节点选择器与资源注解
Kubernetes详解(十二)——节点选择器与资源注解
48 2
|
1月前
|
存储 Kubernetes Docker
容器服务Kubernetes版产品使用合集之集群节点和 pod 实现自动扩缩容如何解决
容器服务Kubernetes版,作为阿里云提供的核心服务之一,旨在帮助企业及开发者高效管理和运行Kubernetes集群,实现应用的容器化与微服务化。以下是关于使用这些服务的一些建议和合集,涵盖基本操作、最佳实践、以及一些高级功能的使用方法。
|
1月前
|
Kubernetes 搜索推荐 应用服务中间件
通过keepalived+nginx实现 k8s apiserver节点高可用
通过keepalived+nginx实现 k8s apiserver节点高可用
99 16
|
1月前
|
Kubernetes 固态存储 调度
Kubernetes节点亲和性分配Pod
Kubernetes节点亲和性分配Pod
47 0
Kubernetes节点亲和性分配Pod

相关产品

  • 容器服务Kubernetes版