云上 K8s GPU 节点 ImagePullBackOff 排查记录

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 本文记录云上K8s(v1.36)GPU节点模型评测Job因`ImagePullBackOff`卡在Pending的排查过程,聚焦containerd镜像拉取失败根因,涵盖crictl验证、日志分析、DNS/镜像源配置检查,并强调分层排障:先运行时,再资源调度与设备挂载。

这次记录一个云上 K8s GPU 节点的问题。业务侧提交了一个模型评测 Job,Pod 已经被分配到 GPU 节点,但一直没有进入 Running,事件显示 ImagePullBackOff

环境特征:

  • Kubernetes v1.36 测试集群
  • containerd 运行时
  • GPU 节点池
  • Job 里包含 vLLM worker 和监控 sidecar

1. 先看事件

kubectl get pod -n ai-lab -owide
kubectl describe pod -n ai-lab eval-worker-0
kubectl get events -n ai-lab --sort-by=.lastTimestamp

如果 Pod 已经有目标节点,并且事件是镜像拉取失败,就先不要改 DRA 或 GPU 资源声明。这里是节点运行时没有把镜像准备好。

2. 在目标节点用 crictl 验证

sudo crictl ps -a | grep eval-worker
sudo crictl pull docker.1ms.run/vllm/vllm-openai:latest
sudo crictl pull nvcr.1ms.run/nvidia/cuda:12.4.1-runtime-ubuntu22.04
sudo crictl pull quay.1ms.run/prometheus/node-exporter:v1.8.2

如果这里也失败,说明不是 Kubernetes YAML 的问题。继续查节点 DNS、出网策略、containerd mirror 配置和镜像前缀。

3. 检查 containerd 日志

sudo journalctl -u containerd --since "20 min ago" --no-pager
sudo crictl info | jq '.config'
sudo ctr -n k8s.io images ls | grep -E 'vllm|cuda|node-exporter'

我会重点看三类信息:

  • 是否有 DNS 解析失败。
  • 是否有连接超时。
  • 是否镜像已经存在但 tag 引用不一致。

4. 再看 DRA 和 PodGroup

如果镜像已经拉通,但 Pod 仍然没有进入运行阶段,再回到资源层:

kubectl get podgroup -n ai-lab
kubectl describe podgroup -n ai-lab eval-workers-pg
kubectl describe pod -n ai-lab eval-worker-0 | grep -A20 Events

Kubernetes v1.36 里工作负载感知调度和 DRA 的组合更适合 AI/ML 任务,但测试时要把两类问题分开:资源分配问题看 PodGroup、ResourceClaim、拓扑约束;镜像问题看 containerd 和目标节点。

5. 验证容器内设备和模型目录

镜像问题排掉后,再进入业务启动:

kubectl exec -n ai-lab eval-worker-0 -- nvidia-smi
kubectl exec -n ai-lab eval-worker-0 -- ls -lh /models
kubectl logs -n ai-lab eval-worker-0 --tail=100

如果 GPU 不可见,再检查 GPU Operator、驱动、runtime class。
如果模型目录不可见,再检查 PVC、挂载路径和权限。
如果探针失败,再检查服务端口和 readinessProbe。

复盘

这类问题最容易混在一起:K8s 版本升级、DRA、GPU 节点、模型服务、大镜像,全部都在同一个故障现场。但真正排查时要分层:

  • Pod 没分配节点,查调度。
  • Pod 分配了节点但拉不下镜像,查运行时和镜像入口。
  • 镜像拉通但容器启动失败,查设备、模型目录和业务日志。

对云上 GPU 节点来说,发布前做一轮 crictl pull 预检很有价值。它不能替代调度和业务测试,但能提前排掉很多启动前的变量。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
2月前
|
Kubernetes 网络协议 文件存储
Docker镜像拉了一下午还没完?我受够了,花了一周找替代方案
上周拉镜像卡在47%两小时?试遍阿里云、高校源、GitHub清单全失效。直到发现「毫秒镜像」——宝塔、爱快、绿联NAS已原生集成,金融级客户背书。一行命令安装,3秒拉完nginx,全仓库加速(Docker Hub/gcr/ghcr/k8s等),含DNS自诊。免费版够用,稳定不跑路。
1008 18
|
26天前
|
域名解析 运维 网络协议
网站测速实用方法及性能评估要点
网站的访问速度直接关系用户使用体验,也是衡量服务器运行状态、网络链路质量、站点优化效果的关键指标。在日常网站运维管理中,通过规范的测速方式,能够及时发现页面加载缓慢、地域访问差异、连接不稳定等问题,为后续优化调整提供有效参考。
303 0
|
27天前
|
人工智能 前端开发 JavaScript
浏览器自动化的下一层:为什么 CloakBrowser 把指纹问题推到了源码层?
CloakBrowser 是一款基于 Chromium 源码级改造的反检测浏览器工具,通过 C++ 层补丁修复 Canvas、WebGL、字体、GPU、WebRTC 等指纹特征,并模拟真实用户行为,提升自动化环境可信度。它不绕验证码,而是从根源降低被风控识别概率,适用于测试开发、AI Agent 及合规爬虫场景。
|
26天前
|
弹性计算 API 数据库
2026阿里云服务器新购与续费优惠政策解析:新老用户省钱攻略与上云和用云福利参考
2026年阿里云服务器新购与续费优惠政策解析:新购方面,阿里云提供丰富的免费试用机会(个人最高300元/月、企业最高660元/月),以及轻量应用服务器低至0.1元/天的限时抢购活动,覆盖2核2G至4核16G多档配置。续费方面,推出"99计划"等长效特惠,经济型e实例99元/年、u1实例199元/年,均实行新购续费同价,活动延续至2027年3月。此外,企业用户还可享受迁云补贴、出海补贴(最高10万元)、阿里云百炼按量返券等专属权益。
|
26天前
|
存储 并行计算 算法
基于试射法和龙格库塔法的层状介质射线追踪MATLAB实现
基于试射法和龙格库塔法的层状介质射线追踪MATLAB实现,包含三层介质模型构建、射线参数计算和路径可视化
92 2
|
26天前
|
数据采集 JSON 监控
阐述:微店商品详情API实战经验
微店商品详情API(micro.item_get)提供标准化接口,通过商品ID一键获取标题、价格、库存、图片、SKU、详情页及店铺信息等全量公开数据。支持AppKey+Secret签名鉴权,HTTPS/JSON,稳定易对接,适用于数据采集、多平台同步、价格监控、多店管理等场景。(239字)
|
25天前
|
弹性计算 并行计算 测试技术
阿里云服务器通用算力型实例解析:u1/u2i/u2a三款,性能与价格兼顾,适合普通企业用户选择
阿里云通用算力型实例(u1/u2i/u2a)的产品特性与选购策略参考:u1实例采用Intel至强可扩展处理器,2核4G5M带宽年付199元,是企业入门首选;u2i实例搭载新一代至强处理器,单核算力提升20%;u2a实例基于AMD EPYC架构,多线程场景性价比突出。对比经济型e实例(99元/年),通用算力型在内存、带宽和系统盘上全面升级,适合中小企业的业务部署。
|
27天前
|
存储 供应链 安全
Gemini 多模态能力在企业云架构中的落地方式
企业落地 Gemini 多模态 API,需要把对象存储、异步任务、模型网关、审核流、日志审计和成本统计一起设计。本文给出一套云上架构拆解。
118 3
|
26天前
|
域名解析 运维 UED
KKCE:网站测速核心要点保障访问流畅
本文详解网站测速核心逻辑与实操要点:从排除本地干扰入手,分步开展网络链路、页面资源、域名解析及多地域多运营商测速,精准定位瓶颈,为性能优化提供依据,助力常态化高效运维。(239字)
202 0
|
27天前
|
Kubernetes 网络安全 虚拟化
VCF Automation 9.1 发布 - 云计算自动化
formerly VMware Aria Automation | 为 AI、Kubernetes 以及基于虚拟机 (VM) 的应用交付自助式私有云
85 1