vllm部署模型要点

简介: vllm部署模型要点

vllm运行模型的要点:

先下载,下载的时候干别的事情
1、Hugging Face CLI安装

pip install "huggingface_hub[hf_transfer]"

2、模型下载

huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

软件安装

1、显卡驱动安装 cudatool安装,cudnn安装(注意安装指定版本与驱动匹配)

锁定驱动版本的命令:

apt-mark hold nvidia-dkms-525

下载cudatool并安装

wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
./cuda_11.8.0_520.61.05_linux.run

wget https://developer.download.nvidia.com/compute/cudnn/9.7.1/local_installers/cudnn-local-repo-ubuntu2004-9.7.1_1.0-1_amd64.deb
sudo dpkg -i cudnn-local-repo-ubuntu2004-9.7.1_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2004-9.7.1/cudnn-*-keyring.gpg /usr/share/keyrings/sudo apt-get update
sudo apt-get -y install cudnn
conda env create -n vllm=python3.11
conda activate vllm

3、torch安装(可免,会在vllm一起安装)

pip install torch==2.1.1+cu121 torchvision==0.20.1+cu121 torchaudio==2.1.1+cu121 --index-url https://download.pytorch.org/whl/cu121

4、xformers安装(可免,会在vllm一起安装)
5、vllm安装(安装指定cuda和torch版本的vllm)

wget https://github.com/vllm-project/vllm/releases/download/v0.6.1.post1/vllm-0.6.1.post1+cu118-cp311-cp311-manylinux1_x86_64.whl
pip install 。。。

6、flash-attn安装

pip install flash-attn(安装指定cuda版本的)

7、启动

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-14B \
--trust-remote-code --served-model-name ds14 \
--gpu-memory-utilization 0.98 --tensor-parallel-size 1 \
--port 8000 --max-model-len=65536 --token=

运行报错,做链接

ln -s /root/miniconda3/envs/vllm/lib/python3.11/site-packages/nvidia/nvjitlink/lib/libnvJitLink.so.12 /root/miniconda3/envs/vllm/lib/python3.11/site-packages/nvidia/cusparse/lib/libnvJitLink.so.12
export LD_LIBRARY_PATH=/root/miniconda3/envs/vllm/lib/python3.11/site-packages/nvidia/cusparse/lib:$LD_LIBRARY_PATH

open webui安装:

conda env create -n vllm=open-webui
conda activate open-webui
yum install open-webui
相关文章
|
机器学习/深度学习 自然语言处理 PyTorch
VLLM (Very Large Language Model)
VLLM (Very Large Language Model) 是一种大型语言模型,通常具有数十亿或数万亿个参数,用于处理自然语言文本。VLLM 可以通过预训练和微调来执行各种任务,如文本分类、机器翻译、情感分析、问答等。
1633 1
|
6月前
|
Linux Docker 容器
docker下部署 vLLM 启动Qwen3-VL-32B-Instruct模型
本文介绍在CentOS系统、A10 6×24G显卡环境下,通过Docker部署vLLM并启动Qwen3-VL-32B-Instruct大模型的完整流程,涵盖镜像拉取、容器配置、多卡并行与显存优化设置,支持32K上下文,附带启动脚本及调用验证示例。
8182 2
|
4月前
|
并行计算 API Docker
Docker+vLLM内网离线部署Qwen3 流程
本教程详解如何在A10四卡内网环境中,通过Docker+ vLLM离线部署Qwen3-32B/Qwen3-VL-30B-Instruct大模型。涵盖环境准备、镜像离线导入、模型下载、容器启动及参数调优,支持FP8/KV缓存/张量并行等高性能配置,助力安全高效私有化推理
5825 8
|
6月前
|
API Docker 异构计算
从 Docker Run 到生产级部署:vLLM推理大模型服务的 Docker Compose 完整实战指南
本文详解如何将vLLM大模型推理服务从基础docker run升级为生产级Docker Compose部署。涵盖GPU支持、网络隔离、配置参数化、API优化与压测实践,解决命名冲突、环境混乱等痛点,助力AI/DevOps工程师构建可维护、可扩展的容器化推理平台。
|
4月前
|
自然语言处理 前端开发 测试技术
魔搭社区+OpenVINO™ 加速部署 Qwen3-ASR 实战
通义千问新推Qwen3-ASR语音识别模型(1.7B/0.6B),支持52种语言及方言,具备高鲁棒性与流式长音频转写能力。联合魔搭社区与Intel® OpenVINO™,实现Intel平台极致加速部署,提供完整开源教程、Notebook示例及Gradio交互Demo。(239字)
2626 6
|
4月前
|
人工智能 Linux API
[大模型实战 01] 本地大模型初体验:Ollama 部署与 Python 调用指南
大模型实战系列第一篇。拒绝晦涩理论,直接上手!我会带着各位友人们零基础安装 Ollama,利用国内 ModelScope 极速下载模型,详解服务端口配置与 Python 脚本调用,涵盖显存计算与常见避坑指南。
[大模型实战 01] 本地大模型初体验:Ollama 部署与 Python 调用指南
|
5月前
|
并行计算 监控 安全
高效 GPU 加速:DeepSeek-R1 系列模型在 llama.cpp 上的生产级部署指南
本文详解如何在RTX 30/40系显卡上,通过llama.cpp高效部署DeepSeek-R1-8B模型。涵盖CUDA镜像选择、GPU卸载调优、显存控制与高可用架构,结合Docker、Prometheus监控及负载均衡,实现低延迟、高吞吐的生产级推理,助力大模型落地应用。