本地部署QWQ显存不够怎么办?

简介: 3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。

QwQ-32B 模型简介

3月6日,阿里云发布并开源了全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QWQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩Deepseek-R1。在保持强劲性能的同时,千问QwQ-32B还大幅降低了部署使用成本。


在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,比肩最强开源推理模型DeepSeek-R1:在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,千问QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型;在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek-R1。此外,千问QwQ-32B模型中还集成了与智能体Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。


PAI-Model Gallery 简介

Model Gallery 是阿里云人工智能平台 PAI 的产品组件,它集成了国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域。通过 PAI 对这些模型的适配,用户可以以零代码方式实现从训练到部署再到推理的全过程,简化了模型的开发流程,为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。


该平台具备灵活性和强大的技术支持,能够利用多种先进的部署框架来满足不同用户的需求。具体来说:


  • SGLang 提供了一种简化的配置方式,便于快速部署模型。
  • vLLM 针对大规模语言模型进行了优化,提高了推理速度和效率。
  • BladeLLM 是阿里云自主研发的高性能推理框架,专门为大规模语言模型提供高效的部署和推理能力。


PAI-Model Gallery 访问地址:https://pai.console.aliyun.com/?regionId=cn-hangzhou#/quick-start/models

PAI-Model Gallery 一键部署 QwQ-32B

1、进入 Model Gallery 页面(链接:https://pai.console.aliyun.com/?regionId=cn-hangzhou#/quick-start/models

登录 PAI 控制台。

在顶部左上角根据实际情况选择地域(当前除北京地域外,都已支持QwQ-32B模型)。

在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。

在左侧导航栏选择快速开始 > Model Gallery。

2、在 Model Gallery 页面的模型列表中,单击找到并点击 QwQ-32B 模型卡片,进入模型详情页面。

3、单击右上角部署,选择部署框架、配置推理服务名称以及部署使用的资源信息后,即可一键部署服务,将模型部署到 PAI-EAS 推理服务平台。当前平台已支持多种部署框架,包括SGLang加速部署、vLLM加速部署、BladeLLM加速部署(阿里云PAI自研高性能推理框架)。

4、使用推理服务。部署成功后,在服务页面可以点击“查看调用信息”获取调用的Endpoint和Token,想了解服务调用方式可以点击预训练模型链接,返回模型介绍页查看调用方式说明。

您也可以在 PAI-EAS 推理服务平台上在线调试已部署好的QwQ-32B模型服务。从图中可以看出模型回复具备较好的思维链能力。

联系我们

欢迎各位小伙伴持续关注使用 PAI-Model Gallery,平台会不断上线 SOTA 模型,如果您有任何模型需求,也可以联系我们。您可通过搜索钉钉群号79680024618,加入PAI-Model Gallery用户交流群。


来源  |  阿里云开发者公众号

作者  |  舒伯

相关文章
|
并行计算 PyTorch 算法框架/工具
社区供稿 | 本地部署通义千问大模型做RAG验证
这篇文章中,我们通过将模搭社区开源的大模型部署到本地,并实现简单的对话和RAG。
|
8月前
|
容器
vllm+vllm-ascend本地部署QwQ-32B
本指南介绍如何下载、安装和启动基于Ascend的vLLM模型。首先,可通过华为镜像或Hugging Face下载预训练模型;其次,安装vllm-ascend,支持通过基础镜像(如`quay.io/ascend/vllm-ascend:v0.7.3-dev`)或源码编译方式完成;最后,使用OpenAI兼容接口启动模型,例如运行`vllm serve`命令,设置模型路径、并行规模等参数。适用于大模型推理场景,需注意显存需求(如QwQ-32B需70G以上)。
3209 17
|
8月前
|
人工智能 Linux API
119K star!无需GPU轻松本地部署多款大模型,DeepSeek支持!这个开源神器绝了
"只需一行命令就能在本地运行Llama 3、DeepSeek-R1等前沿大模型,支持Windows/Mac/Linux全平台,这个开源项目让AI开发从未如此简单!"
451 0
|
10月前
|
人工智能 Linux API
零门槛本地部署!手把手教你用Ollama+Chatbox玩转DeepSeek大模型
本教程介绍如何在个人电脑上免费部署DeepSeek模型,无需高端显卡。通过Ollama和Chatbox两款轻量工具,用户可以在普通CPU上流畅运行大型语言模型。Ollama支持跨平台操作,提供一键式安装和模型管理;Chatbox则是多平台AI客户端,支持多种主流模型。教程涵盖Ollama和Chatbox的安装、DeepSeek模型的下载与配置,帮助你在本地轻松搭建智能助手,适用于学术研究、代码编写和日常问答等场景。
3694 19
零门槛本地部署!手把手教你用Ollama+Chatbox玩转DeepSeek大模型
|
人工智能 Linux iOS开发
本地部署大模型DeepSeek并通过Infortress App远程访问
本地部署DeepSeek大模型后,如何在外网用手机随时随地访问?无需复杂设置,通过Infortress App即可轻松实现!只需三步:安装Infortress服务端、一键部署DeepSeek大模型、安装手机/电脑客户端。Infortress支持纯图形化操作,适合新手,还自带内网穿透功能,跨网络访问无忧。让本地AI随身携带,数据掌控在手,随时随地使用!
|
10月前
|
人工智能 Java 程序员
一文彻底拿下,赶紧本地部署DeepSeek体验一下最牛的大模型
本文介绍如何本地化部署DeepSeek大模型(deepseek-r1)及open-webui的安装过程,包括命令行操作、版本兼容性处理等详细步骤。DeepSeek号称“国运级”大模型,性能媲美OpenAI,支持直接对话,降低使用门槛。通过本教程,读者可以快速上手体验这一强大的推理模型。
602 0
一文彻底拿下,赶紧本地部署DeepSeek体验一下最牛的大模型
|
10月前
|
人工智能 自然语言处理 程序员
一文彻底搞定从0到1手把手教你本地部署大模型
Ollama 是一个开源工具,旨在简化大型语言模型(LLM)在本地环境的部署与使用。它支持多种预训练模型(如Llama 3、Phi 3等),允许用户根据设备性能选择不同规模的模型,确保高效运行。Ollama 提供了良好的数据隐私保护,所有处理均在本地完成,无需网络连接。安装简便,通过命令行即可轻松管理模型。适用于开发测试、教育研究和个人隐私敏感的内容创作场景。
3584 0
一文彻底搞定从0到1手把手教你本地部署大模型
|
人工智能 安全 API
本地部署马斯克开源Grok-1大模型,贝锐花生壳3步实现远程访问
在人工智能领域,除了在线工具如ChatGPT和Midjourney,本地部署的AI工具如Stable Diffusion同样重要,尤其在满足定制需求和确保数据安全方面。以马斯克的xAI开源项目Grok-1为例,这款拥有314B参数的大模型需要高性能硬件支持。借助贝锐花生壳的内网穿透技术,用户可通过简单的三步操作实现对这类AI工具的远程访问:安装并登录花生壳客户端、设置内网穿透映射、生成并使用远程访问地址。花生壳提供的HTTPS映射确保了访问的安全性,使远程使用AI工具变得更加便捷和安全。
400 1
|
人工智能 自然语言处理 数据可视化
一键本地部署类GPT大模型,免费!
一键本地部署类GPT大模型,免费!
486 1

热门文章

最新文章