解决K8S中Pod无法正常Mount PVC的问题

简介: 解决K8S中Pod无法正常Mount PVC的问题

今天发现一个Pod一直处于ContainerCreating状态,通过Describe查看,发现以下错误。


Warning  FailedMount  15s        kubelet, node-2    MountVolume.WaitForAttach failed for volume "pvc-504feeb6-ae42-45ba-996b-5e8e1039b601" : rbd image kube/kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87 is still being used


意思就是说该Pod启动需要挂载PVC,但是这个PVC目前正被使用。可以确定的是除了这个Deployment之外,没有其他Deployment在使用这个PVC,那这是为什么呢?


我们先来看看如果一个Pod需要挂载卷,在创建Pod的过程中,卷的整个流程如下:


(1)第一步是先创建卷 (2)第二步在节点上挂载卷 (3)将卷映射到Pod中


在删除Pod的时候,卷的卸载过程和上面正好相反。所以初步怀疑是在删除Pod的时候,原节点由于某些原因从节点上卸载卷失败,我们来具体排查一下。


1、通过上面Pod的错误信息,我们可以获取到如下有用信息


rbd image kube/kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87 is still being used


我们可以从上面的信息获取到rbd的镜像信息,拆分如下:


  • rbd池:kube
  • rbd镜像:kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87


2、我们通过ceph命令可以获取到该镜像被哪个节点使用,如下:


# rbd info kube/kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87
rbd image 'kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87':
 size 100 GiB in 25600 objects
 order 22 (4 MiB objects)
 snapshot_count: 0
 id: fb236b8b4567
 block_name_prefix: rbd_data.fb236b8b4567
 format: 2
 features: layering
 op_features: 
 flags: 
 create_timestamp: Tue May 26 17:03:15 2020
 access_timestamp: Tue May 26 17:03:15 2020
 modify_timestamp: Tue May 26 17:03:15 2020


主要关注block_name_prefix的值。

然后通过以下的命令获取到具体的节点:


# rados listwatchers -p kube rbd_header.fb236b8b4567
watcher=192.168.100.181:0/154937577 client.194364 cookie=18446462598732840971


其中,将从block_name_prefix获取到的值将rbd_data修改为rbd_header,然后通过以上命令获取即可。


从上面输出的信息可以看到这个rbd镜像被挂载到192.168.100.181主机上,这时候我们需要切换到该主机进行具体的操作。


3、查看具体的文件系统挂载信息


ls /dev/rbd/kube/kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87 -l
lrwxrwxrwx 1 root root 11 7月  27 09:04 /dev/rbd/kube/kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87 -> ../../rbd4


可以看到这个rbd镜像被挂载到/dev/rbd4上,我们可以直接通过rbd unmap命令卸载,如下:


# rbd unmap /dev/rbd4


不过我这里并没有这么容易,当我在卸载的时候报如下错误。


# rbd unmap /dev/rbd4
rbd: sysfs write failed
rbd: unmap failed: (16) Device or resource busy


一看到这个问题,就想到有时候在umount的时候,也会遇到Device busy,所以第一反应是使用lsof,看是否能找到哪个进程占用了,如下:


# lsof 2>/dev/null | grep rbd4


但是我并没有找到任何进程,二脸懵逼.....


最后只有疯狂百度了,找到了两种解决方式。(1)通过rbd unmap -o force进行强制卸载 (2)通过grep 'rbd4' /proc/*/task/*/mountinfo来查找进程PID

当把这个rbd镜像从原节点卸载过后,就可以看到Pod可以正常启动了。


写在最后


由于我是使用的Deployment来管理的有状态应用,正常使用StatefulSet不会出现这种问题,那使用Deployment该如何避免这种问题呢?


  • 使用ReadWriteMany访问模式的pvc
  • maxSurge设置为0,避免在更新过程中产生多余的pod


这两种方式都有利有弊,具体情况需要使用者去权衡。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
2月前
|
存储 Kubernetes Docker
【赵渝强老师】Kubernetes中Pod的基础容器
Pod 是 Kubernetes 中的基本单位,代表集群上运行的一个进程。它由一个或多个容器组成,包括业务容器、基础容器、初始化容器和临时容器。基础容器负责维护 Pod 的网络空间,对用户透明。文中附有图片和视频讲解,详细介绍了 Pod 的组成结构及其在网络配置中的作用。
【赵渝强老师】Kubernetes中Pod的基础容器
|
2月前
|
Prometheus Kubernetes 监控
深入探索Kubernetes中的Pod自动扩展(Horizontal Pod Autoscaler, HPA)
深入探索Kubernetes中的Pod自动扩展(Horizontal Pod Autoscaler, HPA)
|
2月前
|
运维 Kubernetes Shell
【赵渝强老师】K8s中Pod的临时容器
Pod 是 Kubernetes 中的基本调度单位,由一个或多个容器组成,包括业务容器、基础容器、初始化容器和临时容器。临时容器用于故障排查和性能诊断,不适用于构建应用程序。当 Pod 中的容器异常退出或容器镜像不包含调试工具时,临时容器非常有用。文中通过示例展示了如何使用 `kubectl debug` 命令创建临时容器进行调试。
|
2月前
|
Kubernetes 调度 容器
【赵渝强老师】K8s中Pod中的业务容器
Pod 是 Kubernetes 中的基本调度单元,由一个或多个容器组成。除了业务容器,Pod 还包括基础容器、初始化容器和临时容器。本文通过示例介绍如何创建包含业务容器的 Pod,并提供了一个视频讲解。示例中创建了一个名为 "busybox-container" 的业务容器,并使用 `kubectl create -f firstpod.yaml` 命令部署 Pod。
|
2月前
|
Kubernetes 容器 Perl
【赵渝强老师】K8s中Pod中的初始化容器
Kubernetes的Pod包含业务容器、基础容器、初始化容器和临时容器。初始化容器在业务容器前运行,用于执行必要的初始化任务。本文介绍了初始化容器的作用、配置方法及优势,并提供了一个示例。
|
3天前
|
缓存 容灾 网络协议
ACK One多集群网关:实现高效容灾方案
ACK One多集群网关可以帮助您快速构建同城跨AZ多活容灾系统、混合云同城跨AZ多活容灾系统,以及异地容灾系统。
|
16天前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
14天前
|
Kubernetes Ubuntu 网络安全
ubuntu使用kubeadm搭建k8s集群
通过以上步骤,您可以在 Ubuntu 系统上使用 kubeadm 成功搭建一个 Kubernetes 集群。本文详细介绍了从环境准备、安装 Kubernetes 组件、初始化集群到管理和使用集群的完整过程,希望对您有所帮助。在实际应用中,您可以根据具体需求调整配置,进一步优化集群性能和安全性。
61 12
|
19天前
|
Kubernetes 网络协议 应用服务中间件
Kubernetes Ingress:灵活的集群外部网络访问的利器
《Kubernetes Ingress:集群外部访问的利器-打造灵活的集群网络》介绍了如何通过Ingress实现Kubernetes集群的外部访问。前提条件是已拥有Kubernetes集群并安装了kubectl工具。文章详细讲解了Ingress的基本组成(Ingress Controller和资源对象),选择合适的版本,以及具体的安装步骤,如下载配置文件、部署Nginx Ingress Controller等。此外,还提供了常见问题的解决方案,例如镜像下载失败的应对措施。最后,通过部署示例应用展示了Ingress的实际使用方法。
36 2
|
30天前
|
存储 Kubernetes 关系型数据库
阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案
本文源自2024云栖大会苏雅诗的演讲,探讨了K8s集群业务为何需要灾备及其重要性。文中强调了集群与业务高可用配置对稳定性的重要性,并指出人为误操作等风险,建议实施周期性和特定情况下的灾备措施。针对容器化业务,提出了灾备的新特性与需求,包括工作负载为核心、云资源信息的备份,以及有状态应用的数据保护。介绍了ACK推出的备份中心解决方案,支持命名空间、标签、资源类型等维度的备份,并具备存储卷数据保护功能,能够满足GitOps流程企业的特定需求。此外,还详细描述了备份中心的使用流程、控制台展示、灾备难点及解决方案等内容,展示了备份中心如何有效应对K8s集群资源和存储卷数据的灾备挑战。