docker下部署 vLLM 启动Qwen3-VL-32B-Instruct模型

简介: 本文介绍在CentOS系统、A10 6×24G显卡环境下,通过Docker部署vLLM并启动Qwen3-VL-32B-Instruct大模型的完整流程,涵盖镜像拉取、容器配置、多卡并行与显存优化设置,支持32K上下文,附带启动脚本及调用验证示例。

docker下部署 vLLM 启动Qwen3-VL-32B-Instruct模型

环境:centos 、显卡A10 6X24G

1、下载vLLM镜像和大模型文件

# 拉取vLLM最新版本镜像
docker pull vllm/vllm-openai:latest

下载模型地址:https://www.modelscope.cn/models/Qwen

2、启动容器脚本

#!/bin/bash
# ============================================================================
#  vLLM 启动脚本:Qwen3-VL-32B-Instruct(双卡 TP=2,上下文 32k)
# ============================================================================

# 1. 停止并删除旧容器(若存在)
docker stop Qwen3-VL-32B-Instruct
docker rm   Qwen3-VL-32B-Instruct

# 2. 启动新容器
docker run -d \
  # 仅映射 GPU-2 与 GPU-3(两张 A10 共 46 GB)用于 TP=2
  --gpus '"device=2,3"' \
  # 容器名称与模型同名,方便管理
  --name Qwen3-VL-32B-Instruct \
  # 模型权重挂载(只读)
  -v /home/models/Qwen/Qwen3-VL-32B-Instruct:/models/Qwen3-VL-32B-Instruct:ro \
  # 宿主机端口映射
  -p 11435:8000 \
  # 共享内存充足,NCCL 需要
  --ipc=host \
  # 关闭 seccomp & apparmor,避免 pthread/clone 被拦截
  --security-opt seccomp=unconfined \
  --security-opt apparmor=unconfined \
  # 进程数 & 文件描述符上限放大,防止多线程报错
  --ulimit nproc=65535:65535 \
  --ulimit nofile=65536:65536 \
  # 限制 OpenBLAS/OpenMP/Numba 线程数,减少上下文切换
  -e OPENBLAS_NUM_THREADS=1 \
  -e OMP_NUM_THREADS=1 \
  -e NUMBA_NUM_THREADS=1 \
  # 绕过 NumPy 1.26+ 在容器里的 dispatcher 竞态 bug
  -e NUMPY_DISABLE_CPU_FEATURES="sse3 ssse3 sse41 popcnt avx avx2 fma3" \
  # 官方镜像 ≥ 0.11 已支持 Qwen3-VL
  vllm/vllm-openai:latest \
  # 以下均为 vLLM 启动参数
  --model /models/Qwen3-VL-32B-Instruct \
  # 两张卡做 Tensor Parallel
  --tensor-parallel-size 2 \
  # 显存利用率留一点余量给 NCCL 缓存
  --gpu-memory-utilization 0.85 \
  # Qwen3 原生支持 32 k,如需 64 k 再翻倍
  --max-model-len 32768 \
  # 模型含自定义视觉/音频 processor,必须加
  --trust-remote-code \
  # 与官方对齐,节省显存(32B 权重 ≈ 60 GB fp16)
  --dtype bfloat16

chmod +x run_Qwen3-VL-32B-Instruct.sh
./run_Qwen3-VL-32B-Instruct.sh

3、验证:

curl -X POST "http://127.0.0.1:11435/v1/chat/completions" \
        -H "Content-Type: application/json" \
        --data '{
                "model": "/models/Qwen3-VL-32B-Instruct",
                "messages": [
                        {
                                "role": "user",
                                "content": "你能干什么?"
                        }
                ]
        }'
目录
相关文章
|
4天前
|
云安全 人工智能 自然语言处理
|
8天前
|
人工智能 Java API
Java 正式进入 Agentic AI 时代:Spring AI Alibaba 1.1 发布背后的技术演进
Spring AI Alibaba 1.1 正式发布,提供极简方式构建企业级AI智能体。基于ReactAgent核心,支持多智能体协作、上下文工程与生产级管控,助力开发者快速打造可靠、可扩展的智能应用。
797 17
|
11天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
802 59
Meta SAM3开源:让图像分割,听懂你的话
|
2天前
|
人工智能 安全 小程序
阿里云无影云电脑是什么?最新收费价格个人版、企业版和商业版无影云电脑收费价格
阿里云无影云电脑是运行在云端的虚拟电脑,分企业版和个人版。企业版适用于办公、设计等场景,4核8G配置低至199元/年;个人版适合游戏、娱乐,黄金款14元/月起。支持多端接入,灵活按需使用。
235 164
|
9天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
334 116
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
358 3
|
6天前
|
弹性计算 搜索推荐 应用服务中间件
阿里云服务器租用价格:一年、1小时及一个月收费标准及优惠活动参考
阿里云服务器优惠汇总:轻量应用服务器200M带宽38元/年起,ECS云服务器2核2G 99元/年、2核4G 199元/年,4核16G 89元/月,8核32G 160元/月,香港轻量服务器25元/月起,支持按小时计费,新老用户同享,续费同价,限时秒杀低至1折。
406 166

热门文章

最新文章