vllm+vllm-ascend本地部署QwQ-32B

简介: 本指南介绍如何下载、安装和启动基于Ascend的vLLM模型。首先,可通过华为镜像或Hugging Face下载预训练模型;其次,安装vllm-ascend,支持通过基础镜像(如`quay.io/ascend/vllm-ascend:v0.7.3-dev`)或源码编译方式完成;最后,使用OpenAI兼容接口启动模型,例如运行`vllm serve`命令,设置模型路径、并行规模等参数。适用于大模型推理场景,需注意显存需求(如QwQ-32B需70G以上)。

1 模型下载

可按照此处方法下载预热后的模型,速度较快(推荐artget方式)

https://mirrors.tools.huawei.com/mirrorDetail/67b75986118b030fb5934fc7?mirrorName=huggingface&catalog=llms

或者从hugging face官方下载。

2 vllm-ascend安装

2.1 使用vllm+vllm-ascend基础镜像

基础镜像地址:https://quay.io/repository/ascend/vllm-ascend?tab=tags&tag=latest
拉取镜像(v0.7.0.3的正式版本尚未发布)

docker pull quay.io/ascend/vllm-ascend:v0.7.3-dev

启动镜像
QwQ-32B 需要70G以上显存,2张64G的卡

docker run -itd --net=host --name vllm-ascend-QwQ-32B --device /dev/davinci0 --device /dev/davinci1 --device /dev/davinci_manager --device /dev/devmm_svm --device /dev/hisi_hdc -v /usr/local/dcmi:/usr/local/dcmi -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info -v /etc/ascend_install.info:/etc/ascend_install.info -v /xxx/models/llmmodels:/usr1/project/models quay.io/ascend/vllm-ascend:v0.7.3-dev bash

/xxx/models/llmmodels是宿主机放模型的目录,/usr1/project/models是容器内目录

2.2 源码编译安装

# Install vLLM
git clone --depth 1 --branch v0.8.4 https://github.com/vllm-project/vllm
cd vllm
VLLM_TARGET_DEVICE=empty pip install . --extra-index https://download.pytorch.org/whl/cpu/
cd ..

# Install vLLM Ascend
git clone  --depth 1 --branch v0.8.4rc1 https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
pip install -e . --extra-index https://download.pytorch.org/whl/cpu/
cd ..

具体可以参考链接:https://vllm-ascend.readthedocs.io/en/latest/installation.html

3 启动模型

openai兼容接口

vllm serve /usr1/project/models/QwQ-32B --tensor_parallel_size 2 --served-model-name "QwQ-32B" --max-num-seqs 256 --max-model-len=4096 --host xx.xx.xx.xx --port 8001 &

/usr1/project/models/QwQ-32B:模型路径
tensor_parallel_size:和卡数量保持一致
served-model-name:接口调用需要传入的模型名称
vllm其余具体参数含义请参考vllm官方文档
image.png

相关文章
|
并行计算 PyTorch 算法框架/工具
社区供稿 | 本地部署通义千问大模型做RAG验证
这篇文章中,我们通过将模搭社区开源的大模型部署到本地,并实现简单的对话和RAG。
|
1月前
|
人工智能 Linux API
119K star!无需GPU轻松本地部署多款大模型,DeepSeek支持!这个开源神器绝了
"只需一行命令就能在本地运行Llama 3、DeepSeek-R1等前沿大模型,支持Windows/Mac/Linux全平台,这个开源项目让AI开发从未如此简单!"
|
9天前
|
人工智能 Linux iOS开发
本地部署大模型DeepSeek并通过Infortress App远程访问
本地部署DeepSeek大模型后,如何在外网用手机随时随地访问?无需复杂设置,通过Infortress App即可轻松实现!只需三步:安装Infortress服务端、一键部署DeepSeek大模型、安装手机/电脑客户端。Infortress支持纯图形化操作,适合新手,还自带内网穿透功能,跨网络访问无忧。让本地AI随身携带,数据掌控在手,随时随地使用!
本地部署大模型DeepSeek并通过Infortress App远程访问
|
23天前
|
人工智能 安全 数据安全/隐私保护
本地部署阿里通义千问Qwen3:一键远程访问,还能解决Ollama安全隐患
阿里开源模型通义千问Qwen3本地部署教程来啦!借助Ollama与Open WebUI,轻松实现图形化操作。通过贝锐花生壳内网穿透,不仅可安全远程访问,还有效防止未授权访问,保障AI资源私密性。从安装Ollama、配置参数到使用Open WebUI及花生壳设置,手把手教你完成全部流程!
934 1
|
3月前
|
人工智能 Linux API
零门槛本地部署!手把手教你用Ollama+Chatbox玩转DeepSeek大模型
本教程介绍如何在个人电脑上免费部署DeepSeek模型,无需高端显卡。通过Ollama和Chatbox两款轻量工具,用户可以在普通CPU上流畅运行大型语言模型。Ollama支持跨平台操作,提供一键式安装和模型管理;Chatbox则是多平台AI客户端,支持多种主流模型。教程涵盖Ollama和Chatbox的安装、DeepSeek模型的下载与配置,帮助你在本地轻松搭建智能助手,适用于学术研究、代码编写和日常问答等场景。
2186 19
零门槛本地部署!手把手教你用Ollama+Chatbox玩转DeepSeek大模型
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
本地部署QWQ显存不够怎么办?
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
|
3月前
|
人工智能 Java 程序员
一文彻底拿下,赶紧本地部署DeepSeek体验一下最牛的大模型
本文介绍如何本地化部署DeepSeek大模型(deepseek-r1)及open-webui的安装过程,包括命令行操作、版本兼容性处理等详细步骤。DeepSeek号称“国运级”大模型,性能媲美OpenAI,支持直接对话,降低使用门槛。通过本教程,读者可以快速上手体验这一强大的推理模型。
236 0
一文彻底拿下,赶紧本地部署DeepSeek体验一下最牛的大模型
|
3月前
|
人工智能 自然语言处理 程序员
一文彻底搞定从0到1手把手教你本地部署大模型
Ollama 是一个开源工具,旨在简化大型语言模型(LLM)在本地环境的部署与使用。它支持多种预训练模型(如Llama 3、Phi 3等),允许用户根据设备性能选择不同规模的模型,确保高效运行。Ollama 提供了良好的数据隐私保护,所有处理均在本地完成,无需网络连接。安装简便,通过命令行即可轻松管理模型。适用于开发测试、教育研究和个人隐私敏感的内容创作场景。
594 0
一文彻底搞定从0到1手把手教你本地部署大模型
|
9月前
|
人工智能 安全 API
本地部署马斯克开源Grok-1大模型,贝锐花生壳3步实现远程访问
在人工智能领域,除了在线工具如ChatGPT和Midjourney,本地部署的AI工具如Stable Diffusion同样重要,尤其在满足定制需求和确保数据安全方面。以马斯克的xAI开源项目Grok-1为例,这款拥有314B参数的大模型需要高性能硬件支持。借助贝锐花生壳的内网穿透技术,用户可通过简单的三步操作实现对这类AI工具的远程访问:安装并登录花生壳客户端、设置内网穿透映射、生成并使用远程访问地址。花生壳提供的HTTPS映射确保了访问的安全性,使远程使用AI工具变得更加便捷和安全。
185 1
|
人工智能 自然语言处理 数据可视化
一键本地部署类GPT大模型,免费!
一键本地部署类GPT大模型,免费!
266 1

热门文章

最新文章