docker下部署 vLLM 启动Qwen3-VL-32B-Instruct模型

简介: 本文介绍在CentOS系统、A10 6×24G显卡环境下,通过Docker部署vLLM并启动Qwen3-VL-32B-Instruct大模型的完整流程,涵盖镜像拉取、容器配置、多卡并行与显存优化设置,支持32K上下文,附带启动脚本及调用验证示例。

docker下部署 vLLM 启动Qwen3-VL-32B-Instruct模型

环境:centos 、显卡A10 6X24G

1、下载vLLM镜像和大模型文件

# 拉取vLLM最新版本镜像
docker pull vllm/vllm-openai:latest

下载模型地址:https://www.modelscope.cn/models/Qwen

2、启动容器脚本

#!/bin/bash
# ============================================================================
#  vLLM 启动脚本:Qwen3-VL-32B-Instruct(双卡 TP=2,上下文 32k)
# ============================================================================

# 1. 停止并删除旧容器(若存在)
docker stop Qwen3-VL-32B-Instruct
docker rm   Qwen3-VL-32B-Instruct

# 2. 启动新容器
docker run -d \
  # 仅映射 GPU-2 与 GPU-3(两张 A10 共 46 GB)用于 TP=2
  --gpus '"device=2,3"' \
  # 容器名称与模型同名,方便管理
  --name Qwen3-VL-32B-Instruct \
  # 模型权重挂载(只读)
  -v /home/models/Qwen/Qwen3-VL-32B-Instruct:/models/Qwen3-VL-32B-Instruct:ro \
  # 宿主机端口映射
  -p 11435:8000 \
  # 共享内存充足,NCCL 需要
  --ipc=host \
  # 关闭 seccomp & apparmor,避免 pthread/clone 被拦截
  --security-opt seccomp=unconfined \
  --security-opt apparmor=unconfined \
  # 进程数 & 文件描述符上限放大,防止多线程报错
  --ulimit nproc=65535:65535 \
  --ulimit nofile=65536:65536 \
  # 限制 OpenBLAS/OpenMP/Numba 线程数,减少上下文切换
  -e OPENBLAS_NUM_THREADS=1 \
  -e OMP_NUM_THREADS=1 \
  -e NUMBA_NUM_THREADS=1 \
  # 绕过 NumPy 1.26+ 在容器里的 dispatcher 竞态 bug
  -e NUMPY_DISABLE_CPU_FEATURES="sse3 ssse3 sse41 popcnt avx avx2 fma3" \
  # 官方镜像 ≥ 0.11 已支持 Qwen3-VL
  vllm/vllm-openai:latest \
  # 以下均为 vLLM 启动参数
  --model /models/Qwen3-VL-32B-Instruct \
  # 两张卡做 Tensor Parallel
  --tensor-parallel-size 2 \
  # 显存利用率留一点余量给 NCCL 缓存
  --gpu-memory-utilization 0.85 \
  # Qwen3 原生支持 32 k,如需 64 k 再翻倍
  --max-model-len 32768 \
  # 模型含自定义视觉/音频 processor,必须加
  --trust-remote-code \
  # 与官方对齐,节省显存(32B 权重 ≈ 60 GB fp16)
  --dtype bfloat16

chmod +x run_Qwen3-VL-32B-Instruct.sh
./run_Qwen3-VL-32B-Instruct.sh

3、验证:

curl -X POST "http://127.0.0.1:11435/v1/chat/completions" \
        -H "Content-Type: application/json" \
        --data '{
                "model": "/models/Qwen3-VL-32B-Instruct",
                "messages": [
                        {
                                "role": "user",
                                "content": "你能干什么?"
                        }
                ]
        }'
目录
相关文章
|
1月前
|
并行计算 API Docker
Docker+vLLM内网离线部署Qwen3 流程
本教程详解如何在A10四卡内网环境中,通过Docker+ vLLM离线部署Qwen3-32B/Qwen3-VL-30B-Instruct大模型。涵盖环境准备、镜像离线导入、模型下载、容器启动及参数调优,支持FP8/KV缓存/张量并行等高性能配置,助力安全高效私有化推理
2879 8
|
3月前
|
负载均衡 Docker Python
vLLM-Ascend 安装部署与环境配置指南
vLLM-Ascend 是 vLLM 项目专为华为昇腾 NPU 设计的硬件插件,支持主流大模型与多模态架构,提供高性能推理能力。项目结构清晰,涵盖核心算子、工具脚本与容器化部署方案,兼容单/多节点环境,助力高效构建昇腾上的 AI 推理服务。
1686 1
|
3月前
|
API Docker 异构计算
从 Docker Run 到生产级部署:vLLM推理大模型服务的 Docker Compose 完整实战指南
本文详解如何将vLLM大模型推理服务从基础docker run升级为生产级Docker Compose部署。涵盖GPU支持、网络隔离、配置参数化、API优化与压测实践,解决命名冲突、环境混乱等痛点,助力AI/DevOps工程师构建可维护、可扩展的容器化推理平台。
|
1月前
|
机器学习/深度学习 测试技术 API
Qwen3.5 中等规模模型系列正式开源:更强智能,更低算力
通义千问Qwen3.5发布四款中等规模多模态模型,支持256K原生上下文(可扩至1M)、201种语言及统一视觉语言训练。凭借Gated Delta+MoE混合架构与百万Agent强化学习,35B-A3B仅激活3B参数即超越旧旗舰,性能、效率与部署成本兼具。(239字)
5098 23
|
1月前
|
人工智能 并行计算 Docker
显卡驱动、CUDA、NVIDIA Container Toolkit 内网离线安装教程
本文详解无网络环境下私有化AI部署的离线环境搭建:涵盖NVIDIA驱动(550.142)、CUDA 12.4、NVIDIA Container Toolkit及Docker的全流程离线安装与配置,适配双RTX 3090服务器,含依赖处理、冲突解决与完整验证步骤。
1662 5
显卡驱动、CUDA、NVIDIA Container Toolkit 内网离线安装教程
|
2月前
|
安全 Linux Docker
QWEN3 企业级 Docker 容器化部署指南
QWEN3是通义千问系列最新大模型,支持密集与混合专家架构,覆盖0.6B至235B参数,适用于多场景部署。具备思考与非思考双推理模式,强化复杂任务处理能力,支持100+语言及工具调用。本文档提供企业级Docker部署方案,涵盖环境配置、镜像拉取、安全加固、高可用设计与生产最佳实践,经Ubuntu/CentOS实测验证,端口8080、API路径/v1/chat/completions 100%可用,助力快速落地AI应用。
1521 5
|
3月前
|
人工智能 自然语言处理 物联网
16k数据撬动300亿大模型!我用Qwen3-VL打造了一位“顶尖放射科医生”
仅用1.6万张医学影像,通过LLaMA-Factory Online对Qwen3-VL大模型高效微调,成功打造具备专业放射科医生水平的AI助手,实现精准病灶识别、系统分析与临床级诊断建议,助力医疗AI低成本落地。
1552 0
16k数据撬动300亿大模型!我用Qwen3-VL打造了一位“顶尖放射科医生”
|
5月前
|
文字识别 测试技术 开发者
Qwen3-VL新成员 2B、32B来啦!更适合开发者体质
Qwen3-VL家族重磅推出2B与32B双版本,轻量高效与超强推理兼备,一模型通吃多模态与纯文本任务!
5810 12
|
5月前
|
缓存 并行计算 监控
vLLM 性能优化实战:批处理、量化与缓存配置方案
本文深入解析vLLM高性能部署实践,揭秘如何通过continuous batching、PagedAttention与前缀缓存提升吞吐;详解批处理、量化、并发参数调优,助力实现高TPS与低延迟平衡,真正发挥vLLM生产级潜力。
1318 0
vLLM 性能优化实战:批处理、量化与缓存配置方案