ECS GPU 上跑 vLLM:模型目录、镜像和 runtime 排查记录

简介: 本文记录ECS GPU环境部署vLLM时“容器运行但服务不ready”的排查过程。聚焦NAS模型挂载、Docker GPU透传、镜像预检、runtime配置及vLLM冷启动分层验证,避免将存储延迟误判为GPU或模型问题,提炼出7项可复用的GPU推理服务上线前检查清单。(239字)

这篇记录一次 ECS GPU 测试环境里的 vLLM 启动排查。模型目录放在 NAS,共享给 GPU 实例;服务跑在 Docker 容器里。现象是容器已经起来,但 vLLM 长时间没有进入 ready,外层调用一直失败。

这类问题很容易被归到“GPU 不够”或“模型太大”,但我这次按 ECS、NAS、镜像、container runtime 和 vLLM ready 一层层查,最后发现更关键的是启动链路没有拆开验证。

环境

这台机器只是临时测试机,结构如下:

  • ECS GPU 实例,宿主机可以正常执行 nvidia-smi
  • Docker 由 systemd 管理。
  • NAS 挂载到 /mnt/models
  • 目标模型目录是 /mnt/models/Qwen3-32B
  • vLLM 容器监听 8000 端口,提供 OpenAI-compatible API。

启动命令简化后是这样:

docker run -d --name vllm-qwen3 \
  --gpus all \
  -p 8000:8000 \
  -v /mnt/models:/models:ro \
  docker.1ms.run/vllm/vllm-openai:latest \
  vllm serve /models/Qwen3-32B \
    --host 0.0.0.0 \
    --port 8000 \
    --served-model-name qwen3

容器状态是 running,但下面的检查长时间不稳定:

curl -fsS http://127.0.0.1:8000/health
curl -s http://127.0.0.1:8000/v1/models

我没有直接改 vLLM 参数,而是先从 ECS 节点和容器运行时开始排。

1. ECS 上先确认 GPU 和驱动

第一步看宿主机能不能识别 GPU:

nvidia-smi
lsmod | grep -i nvidia

宿主机正常只能说明驱动层没断。vLLM 运行在容器里,所以还要确认 Docker 能把 GPU 注入进去:

docker run --rm --gpus all \
  docker.1ms.run/nvidia/cuda:12.4.1-runtime-ubuntu22.04 \
  nvidia-smi

如果这里失败,我会优先查这些方向:

  • NVIDIA Container Toolkit 是否安装完整。
  • Docker runtime 配置是否被改坏。
  • 启动命令有没有带 --gpus all
  • 宿主机驱动和容器 CUDA runtime 是否匹配。

这次容器内可以看到 GPU,所以暂时不往驱动方向深挖。

2. NAS 模型目录要在容器内验证

模型目录放在 NAS 上,ECS 只挂载共享路径。这个结构方便统一模型版本,但不能只在宿主机上看一眼目录。

先看挂载:

mount | grep /mnt/models
df -h /mnt/models
ls -lah /mnt/models/Qwen3-32B

然后用 vLLM 镜像进入容器看同一个目录:

docker run --rm \
  -v /mnt/models:/models:ro \
  --entrypoint sh \
  docker.1ms.run/vllm/vllm-openai:latest \
  -lc 'ls -lah /models/Qwen3-32B | head && test -f /models/Qwen3-32B/config.json'

这里要特别注意两类问题:

  • 宿主机挂载路径和容器内路径不一致,启动参数还写旧目录。
  • NAS 权限对宿主机用户可读,但容器内运行用户读不到。

这次路径和权限都没问题,但 NAS 读取比本地盘慢很多,所以我把缓存目录放到本机 SSD,模型目录继续只读挂载,避免 vLLM 往共享目录写临时文件。

3. 镜像层单独预检

vLLM 镜像里包含 CUDA、Python 依赖和服务入口,镜像层最好单独确认。否则一次 docker run 失败,很难判断是镜像没准备好,还是模型加载卡住。

docker pull docker.1ms.run/vllm/vllm-openai:latest
docker image inspect docker.1ms.run/vllm/vllm-openai:latest --format '{
   {.Id}} {
   {.Size}}'
docker run --rm --entrypoint python3 docker.1ms.run/vllm/vllm-openai:latest -V

如果多台 ECS GPU 实例一起跑,我会把镜像 ID 记下来,避免某台机器靠旧缓存启动,另一台机器拉到不同环境。测试阶段看起来只是启动慢,到了多节点时就会变成“同一套命令在不同机器上表现不一样”。

4. Docker runtime 和启动参数

接着看 Docker runtime 是否真的把需要的能力交给容器:

docker info | grep -i runtime
docker inspect vllm-qwen3 --format '{
   {json .HostConfig.DeviceRequests}}'
docker inspect vllm-qwen3 --format '{
   {json .Mounts}}'

这几条能快速确认两件事:GPU 设备请求有没有带进去,NAS 挂载是不是只读映射到了预期路径。

如果在 Kubernetes 或 containerd 环境里,同样思路要换成节点事件、runtimeClass、device plugin 和 Pod 挂载检查。核心不是命令形式,而是确认 GPU、模型目录和镜像环境分别到位。

5. vLLM ready 要给冷启动时间

最后回到 vLLM 本身。容器 running 只能说明进程还在,不能说明模型已经可以对外服务。

我看日志:

docker logs -f vllm-qwen3

再分阶段看接口:

curl -fsS http://127.0.0.1:8000/health
curl -s http://127.0.0.1:8000/v1/models

这次日志没有直接报错,而是模型加载和初始化耗时比较长。外层健康检查的等待时间太短,导致服务还没 ready 就被判断失败。调整后,我把启动分成三个状态:

状态 判断方式 含义
容器存活 docker ps 进程没有退出
服务健康 /health vLLM 服务进入健康状态
模型可用 /v1/models 和一次简单请求 API 能对外提供模型

这样看日志时就不容易把“加载中”误判成“死循环”。

复盘清单

这次我最后留下了一张 ECS GPU 上跑 vLLM 的预检清单:

  1. nvidia-smi 只说明宿主机正常,还要用 CUDA 容器测一次 GPU 可见性。
  2. NAS 模型目录要在宿主机和容器内各查一次,路径、权限、config.json、Tokenizer 和分片权重都要确认。
  3. 模型目录尽量只读挂载,缓存和日志放到本机盘。
  4. vLLM 镜像先单独 pullinspect、跑 Python 入口,避免镜像问题混进模型加载日志。
  5. Docker runtime、GPU device request、挂载参数要通过 docker inspect 复核。
  6. 健康检查不要只看容器状态,要区分 /health/v1/models 和首次请求。
  7. 冷启动耗时要记录下来,后面接网关、负载均衡或自动重启策略时才有依据。

这次的结论是:ECS GPU 上跑 vLLM,模型放 NAS 没问题,但要把 NAS、镜像、runtime 和 ready 状态拆开验证。否则一个“启动慢”的现象,会把存储、容器、GPU 和服务层问题全混在一起。

相关文章
|
10天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
2964 20
|
7天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
2729 5
|
22天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23562 14
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
3天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
1675 2
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
9天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
2322 3
|
8天前
|
人工智能 安全 开发工具
Claude Code 官方工作原理与使用指南
Claude Code 不是传统代码补全工具,而是 Anthropic 推出的终端 AI 代理,具备代理循环、双驱动架构(模型+工具)、全局项目感知、6 种权限模式等核心能力,本文基于官方文档系统解析其工作原理与高效使用技巧。
1243 0
|
16天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
3662 6

热门文章

最新文章