公司测试环境k8s节点故障解决

简介: 公司测试环境k8s节点故障解决

测试环境

ip地址 信息
192.168.1.215 k8s主节点 、etcd
192.168.1.216 k8s从节点、etcd
192.168.1.139 kvm

报错
从215服务器上面可以看到使用k8s的命令就是没反应
要不就是回复的是时间超时!连接不上!
尝试命令kubectl get podskubectl get nodes等没反应超时!
这个时候我们可以看看集群状态可以看到etcd处于宕机状态

#如果这个执行不成功的话那就执行看看etcd的健康状态
etcdctl cluster-health

发现其中etcd集群都处于宕机状态,最起码要有两个节点是存活的才能保证集群正常运行!
由于可能服务器ssh登录服务器可能会慢
尝试登录139服务器,215和216服务器都是从129虚出来的直接登录用过kvm的命令进行执行重启服务器
那么到了139服务器之后先看一下KVM虚拟机都有哪些
virsh list --all
可以看到服务器的列表

[root@zlw ~]# virsh list --all
 Id    Name                           State
----------------------------------------------------
 50    windows_server_2008_r2         running
 57    k8s_node02                     running
 70    docker5.tec.net                running
 71    k8s_node03                     running
 73    k8s_node01                     running
 -     donghang                       shut off
 -     hywater                        shut off
 -     k8s-m1                         shut off

我们将主节点的和从节点的服务器进行重启

virsh reboot  k8s_node01     ##进行重启
virsh reboot k8s-node02

等待几分钟重启一下
然后我们分别登录到215和216服务器进行查看一下
然后215服务器可以看到服务都没有启动起来
我们先进行以读写的方式进行重新对系统进行以读写方式进行挂载然后进行启动服务并查看服务的运行状态为running正常

mount -o remount,rw /       #以读写方式重新挂载
systemctl start docker   && systemctl start etcd  && systemctl start kubelet   
  #启动docker服务                #启动kubelet服务               #启动etcd服务
###然后进行查看运行状态
systemctl status docker    #查看docker服务状态   
systemctl status kubelet    #查看kubelet服务状态
systemctl status etcd         #查看etcd服务状态

我们上216服务器进行查看服务状态他会自启动服务

systemctl start docker   && systemctl start etcd && systemctl start kubelet              
systemctl status docker
systemctl status kubelet
systemctl status etcd
###如果状态都为running则正常

如果两台服务器都正常了,可以到215服务器进行测试看看
使用命令

kubectl get nodes
kubectl get cs

可以发现可以使用命令,并且集群正常

治标不治本

根本原因还要去寻找,不然可能还会导致连续的宕机

治本

可能是节点的资源不够磁盘使用量过大导致的
然后再进行更新发布项目的时候会直接使k8s的主节点宕机
可以看看各个节点的磁盘状况然后进行清理一下
k8s的主节点磁盘使用率达到了85%然后其他节点也有的75%
经过排查看到日志文件过大导致的

#在目录下较多文件的情况下可以进行筛选大于1G的文件
find . -type f -size +1024M
#可以在/看看各个目录占用多大,在逐步排查具体文件
du -sh *
#发现/var目录占用较大
cd /var/log
du -sh *   
##可以看到有两个文件已经一共10G也不是当天的可以进行清除#不要清楚正在使用的!!!
rm -rf messages-20200824
rm -rf messages-20200831
#在进行查看df -h磁盘空间变成了65%
#其他节点同理

然后宕机的节点进行重启并启动服务使k8s正常运行

仅供参考

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
1月前
|
存储 关系型数据库 测试技术
玩转n8n测试自动化:核心节点详解与测试实战指南
n8n中节点是自动化测试的核心,涵盖触发器、数据操作、逻辑控制和工具节点。通过组合节点,测试工程师可构建高效、智能的测试流程,提升测试自动化能力。
|
Kubernetes API 调度
k8s中节点无法启动Pod
【10月更文挑战第3天】
415 6
|
7月前
|
Kubernetes API 网络安全
当node节点kubectl 命令无法连接到 Kubernetes API 服务器
当Node节点上的 `kubectl`无法连接到Kubernetes API服务器时,可以通过以上步骤逐步排查和解决问题。首先确保网络连接正常,验证 `kubeconfig`文件配置正确,检查API服务器和Node节点的状态,最后排除防火墙或网络策略的干扰,并通过重启服务恢复正常连接。通过这些措施,可以有效解决与Kubernetes API服务器通信的常见问题,从而保障集群的正常运行。
483 17
|
7月前
|
Kubernetes Shell Windows
【Azure K8S | AKS】在AKS的节点中抓取目标POD的网络包方法分享
在AKS中遇到复杂网络问题时,可通过以下步骤进入特定POD抓取网络包进行分析:1. 使用`kubectl get pods`确认Pod所在Node;2. 通过`kubectl node-shell`登录Node;3. 使用`crictl ps`找到Pod的Container ID;4. 获取PID并使用`nsenter`进入Pod的网络空间;5. 在`/var/tmp`目录下使用`tcpdump`抓包。完成后按Ctrl+C停止抓包。
242 12
|
存储 Kubernetes Docker
Kubernetes节点资源耗尽状态的处理
Kubernetes节点资源耗尽状态的处理
|
SQL 分布式计算 NoSQL
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
252 4
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
262 4
|
Kubernetes Linux API
CentOS 7.6使用kubeadm部署k8s 1.17.2测试集群实战篇
该博客文章详细介绍了在CentOS 7.6操作系统上使用kubeadm工具部署kubernetes 1.17.2版本的测试集群的过程,包括主机环境准备、安装Docker、配置kubelet、初始化集群、添加节点、部署网络插件以及配置k8s node节点管理api server服务器。
363 0
CentOS 7.6使用kubeadm部署k8s 1.17.2测试集群实战篇
|
分布式计算 Hadoop Unix
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
199 1
|
Kubernetes Docker Perl
k8s常见故障--yaml文件检查没有问题 pod起不来(一直处于创建中)
k8s常见故障--yaml文件检查没有问题 pod起不来(一直处于创建中)
372 1

推荐镜像

更多
下一篇
oss教程