vllm部署模型要点

简介: vllm部署模型要点

vllm运行模型的要点:

先下载,下载的时候干别的事情
1、Hugging Face CLI安装

pip install "huggingface_hub[hf_transfer]"

2、模型下载

huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

软件安装

1、显卡驱动安装 cudatool安装,cudnn安装(注意安装指定版本与驱动匹配)

锁定驱动版本的命令:

apt-mark hold nvidia-dkms-525

下载cudatool并安装

wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
./cuda_11.8.0_520.61.05_linux.run

wget https://developer.download.nvidia.com/compute/cudnn/9.7.1/local_installers/cudnn-local-repo-ubuntu2004-9.7.1_1.0-1_amd64.deb
sudo dpkg -i cudnn-local-repo-ubuntu2004-9.7.1_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2004-9.7.1/cudnn-*-keyring.gpg /usr/share/keyrings/sudo apt-get update
sudo apt-get -y install cudnn
conda env create -n vllm=python3.11
conda activate vllm

3、torch安装(可免,会在vllm一起安装)

pip install torch==2.1.1+cu121 torchvision==0.20.1+cu121 torchaudio==2.1.1+cu121 --index-url https://download.pytorch.org/whl/cu121

4、xformers安装(可免,会在vllm一起安装)
5、vllm安装(安装指定cuda和torch版本的vllm)

wget https://github.com/vllm-project/vllm/releases/download/v0.6.1.post1/vllm-0.6.1.post1+cu118-cp311-cp311-manylinux1_x86_64.whl
pip install 。。。

6、flash-attn安装

pip install flash-attn(安装指定cuda版本的)

7、启动

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-14B \
--trust-remote-code --served-model-name ds14 \
--gpu-memory-utilization 0.98 --tensor-parallel-size 1 \
--port 8000 --max-model-len=65536 --token=

运行报错,做链接

ln -s /root/miniconda3/envs/vllm/lib/python3.11/site-packages/nvidia/nvjitlink/lib/libnvJitLink.so.12 /root/miniconda3/envs/vllm/lib/python3.11/site-packages/nvidia/cusparse/lib/libnvJitLink.so.12
export LD_LIBRARY_PATH=/root/miniconda3/envs/vllm/lib/python3.11/site-packages/nvidia/cusparse/lib:$LD_LIBRARY_PATH

open webui安装:

conda env create -n vllm=open-webui
conda activate open-webui
yum install open-webui
相关文章
|
机器学习/深度学习 自然语言处理 PyTorch
VLLM (Very Large Language Model)
VLLM (Very Large Language Model) 是一种大型语言模型,通常具有数十亿或数万亿个参数,用于处理自然语言文本。VLLM 可以通过预训练和微调来执行各种任务,如文本分类、机器翻译、情感分析、问答等。
1119 1
|
监控 Docker 索引
docker安装filebeat 进行日志收集
docker安装filebeat 进行日志收集
1185 0
docker安装filebeat 进行日志收集
|
5月前
|
SQL JSON API
什么!我把SQL编辑器装进了大模型?
本文旨在通过约束解码技术,赋予大型语言模型在生成SQL等结构化内容时更高的准确性、可控性与可解释性,从而满足企业级场景对“精准生成”的严苛要求。
745 125
什么!我把SQL编辑器装进了大模型?
|
6月前
|
人工智能 开发工具
阿里云AI Stack全量适配Qwen3模型,企业级部署效率全面升级
2025年4月29日的凌晨5点,阿里全新一代模型通义千问Qwen3正式发布并全部开源8款「混合推理模型」,包含: 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B。 2款MoE模型:Qwen3-30B-A3B和旗舰版Qwen3-235B-A22B。 阿里云AI Stack已适配全量Qwen3模型,可快速部署实现Qwen3模型的开箱即用!
400 4
|
6月前
|
人工智能 缓存 NoSQL
Redis 与 AI:从缓存到智能搜索的融合之路
Redis 已从传统缓存系统发展为强大的 AI 支持平台,其向量数据库功能和 RedisAI 模块为核心,支持高维向量存储、相似性搜索及模型服务。文章探讨了 Redis 在实时数据缓存、语义搜索与会话持久化中的应用场景,并通过代码案例展示了与 Spring Boot 的集成方式。总结来看,Redis 结合 AI 技术,为现代应用提供高效、灵活的解决方案。
|
8月前
|
人工智能 Kubernetes 异构计算
大道至简-基于ACK的Deepseek满血版分布式推理部署实战
本教程演示如何在ACK中多机分布式部署DeepSeek R1满血版。
|
11月前
|
人工智能 并行计算 监控
深入剖析 Qwen2.5 - 32B 模型在 VLLM 上的单机三卡部署与运行
本文深入探讨了Qwen2.5 - 32B模型在VLLM框架上的部署过程,从模型下载、启动命令、资源占用分析到GPU资源分配及CUDA图应用,详述了大模型运行的挑战与优化策略,强调了硬件资源规划与技术调优的重要性。
6413 2
|
11月前
|
SQL 自然语言处理 数据库
XiYan-SQL:一种多生成器集成的Text-to-SQL框架
XiYan-SQL 是一种创新的多生成器集成Text-to-SQL框架,通过M-Schema增强模型对数据库结构的理解,结合ICL与SFT方法提升SQL生成质量和多样性,经实验证明在多个数据集上表现优异,特别是在Spider和SQL-Eval上取得了领先成绩。
1873 7