备案控制台登录注册

开发者社区云原生文章正文

仅3步！即刻拥有 QwQ-32B，性能比肩全球最强开源模型

2025-03-28 41 发布于浙江

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文介绍如何将QwQ-32B开源模型部署到阿里云函数计算FC，并通过云原生应用开发平台CAP实现Ollama和Open WebUI两个FC函数的部署。Ollama负责托管QwQ-32B-GGUF模型，Open WebUI提供用户交互界面。借助CAP平台，用户可快速完成模型部署，无需关注底层资源管理与运维问题，专注于应用创新与开发。CAP提供免运维、弹性伸缩及高可用性的高效开发环境，并采用按量付费模式降低资源成本。方案使用华北2（北京）地域，默认配置部署，预计耗时10～12分钟。体验后建议清理资源以避免额外费用。

本文详细介绍如何将 QwQ-32B 开源模型部署到函数计算 FC（Function Compute），并通过云原生应用开发平台 CAP（Cloud Application Platform）实现 Ollama 和 Open WebUI 两个 FC 函数的部署。具体来说，Ollama 负责托管 QwQ-32B-GGUF 模型，而 Open WebUI 则用于提供用户界面，支持与模型的交互。

通过 CAP 平台，用户可以快速便捷地完成模型部署，无需担心底层资源管理和运维问题，从而能够专注于应用的创新和开发。CAP 提供了一个免运维的高效开发环境，具备弹性伸缩和高可用性，确保系统在负载变化时仍能保持稳定运行。此外，CAP 采用按量付费模式，用户只需为实际使用的资源付费，有效降低了资源闲置成本。

1.方案架构

本方案的技术架构包括以下云服务：

1 个云原生应用开发平台 CAP 项目：全托管的 Serverless 计算服务，用于部署模型服务与 Web 应用。
1 个文件存储 NAS：存储模型。

按照本方案提供的配置完成部署后，会在阿里云上搭建一个如下图所示的运行环境：

2.部署 QwQ-32B 模型

2.1准备账号

如果您还没有阿里云账号，请访问阿里云账号注册页面[1]，根据页面提示完成注册。

1. 登录函数计算服务控制台[2]，根据页面提示完成开通。

2. 开通后，登录函数计算服务控制台，完成阿里云服务授权。

费用说明

说明

函数计算提供的试用额度（链接[3]领取）和文件存储提供的试用额度（链接[4]领取）可以完全覆盖本教程所需资源消耗。

假设您未领取或免费试用额度已耗尽，预计体验费用将不超过 9 元/小时。实际使用中可能会因您调整实例数而导致费用有所变化，请以控制台显示的实际报价以及最终账单为准。

重要

在函数计算中创建的 GPU 函数，计费基于函数规格乘以实际运行时长。如果没有请求调用，仅收取闲置预留模式下的快照费用。

若不用于生产环境，建议在体验后按提示清理资源，避免继续产生费用。

2.2模型部署

1. 请点击前往部署[5]打开我们提供的云原生应用开发平台 CAP 项目模板，本方案地域以华北2（北京）为例，其他参数选择默认配置，直接单击部署项目，最后在弹出面板中单击确认部署，部署预计等待 10～12 分钟。

说明

首次使用云原生应用开放平台 CAP 会自动跳转到访问控制快速授权页面，滚动到浏览器底部单击确认授权，等待授权结束后单击返回控制台。

2.部署完成后，类似下图所示。

2.3应用体验

一、访问示例应用

应用部署完成之后按照下图找到访问地址。

点击访问地址，即可打开示例应用。

二、与模型对话

在文本输入框中可以进行对话交互。输入问题你是谁？或者其他指令后，调用模型服务获得相应的响应。

三、修改 Ollama 模型服务配置

按照下图所示，通过修改模型服务预留实例数的配置，来实现实例伸缩。

四、使用 Chatbox 客户端配置 Ollama API 进行对话

获取 API 接入地址，按照下图所示，复制访问地址。

2. 访问 Chatbox 下载地址[6]下载并安装客户端，本方案以 macOS M3 为例。

3.运行并配置 Ollama API ，单击设置。

4.下拉选择模型提供方Ollama API，填写 API 域名（步骤 1 中获取的访问地址），下拉选择模型cap-qwq:latest，最后单击保存。

5.在文本输入框中可以进行对话交互。输入问题你是谁？或者其他指令后，调用模型服务获得相应的响应。

2.4清理资源

删除云原生应用开发平台 CAP 项目：

登录云原生应用开发平台 CAP 控制台[7]，在左侧导航栏，选择项目，找到部署的目标项目，在操作列单击删除，然后根据页面提示删除项目。

参考链接：

来源 | 阿里云开发者公众号

文章标签：

Cloud Native

Serverless

API

运维

文件存储

阿里云开发者

+关注

586文章 11问答 2视频

目录

打赏

0

7

6

0

2738

相关文章

CodeFuse

|

人工智能物联网测试技术

CodeFuse发布34B-4bit单卡4090可部署模型

CodeFuse 是蚂蚁集团自研的代码生成专属大模型，可以根据开发者的输入提供智能建议和实时支持，帮助开发者自动生成代码、自动增加注释、自动生成测试用例、修复和优化代码等，以提升研发效率。

CodeFuse

548 0 0

CodeFuse发布34B-4bit单卡4090可部署模型

coder一枚

|

3月前

|

Linux iOS开发 MacOS

deepseek部署的详细步骤和方法，基于Ollama获取顶级推理能力！

DeepSeek基于Ollama部署教程，助你免费获取顶级推理能力。首先访问ollama.com下载并安装适用于macOS、Linux或Windows的Ollama版本。运行Ollama后，在官网搜索“deepseek”，选择适合你电脑配置的模型大小（如1.5b、7b等）。通过终端命令（如ollama run deepseek-r1:1.5b）启动模型，等待下载完成即可开始使用。退出模型时输入/bye。详细步骤如下图所示，轻松打造你的最强大脑。

coder一枚

13025 86 157

蚝油菜花

|

27天前

|

机器学习/深度学习人工智能物联网

MiniMind：2小时训练出你的专属AI！开源轻量级语言模型，个人GPU轻松搞定

MiniMind 是一个开源的超小型语言模型项目，帮助开发者以极低成本从零开始训练自己的语言模型，最小版本仅需25.8M参数，适合在普通个人GPU上快速训练。

蚝油菜花

284 10 10

MiniMind：2小时训练出你的专属AI！开源轻量级语言模型，个人GPU轻松搞定

大模型服务小助手

|

26天前

|

机器学习/深度学习人工智能测试技术

阿里云百炼已上线超强推理开源模型QwQ-32B，尺寸更小，性能比肩DeepSeek满血版

通义千问团队推出了320亿参数的QwQ-32B模型，通过大规模强化学习和多阶段训练，在数学、编程及通用能力上达到或超越了DeepSeek-R1等先进模型。QwQ-32B模型已在阿里云百炼上线，支持API调用，用户可通过官方文档了解详细使用方法。未来，团队将继续探索智能体与RL集成，推动人工通用智能的发展。

大模型服务小助手

7278 18 28

modelscope

|

25天前

|

机器学习/深度学习测试技术 API

QwQ-32B开源！更小尺寸，仅1/20参数性能比肩满血R1

今天，通义千问开源了推理模型QwQ-32B

modelscope

296 17 17

阿里云云原生

|

7天前

|

人工智能 JavaScript Java

如何在IDEA中借助深度思考模型 QwQ 提高编码效率？

通义灵码目前已经支持 QwQ-plus 模型，欢迎大家在【智能问答】里，选择切换模型，即可体验更小尺寸、更强性能的新模型！

阿里云云原生

54 8 8

蚝油菜花

|

3月前

|

人工智能自然语言处理计算机视觉

Janus-Pro：DeepSeek 开源的多模态模型，支持图像理解和生成

Janus-Pro是DeepSeek推出的一款开源多模态AI模型，支持图像理解和生成，提供1B和7B两种规模，适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型，显著提升了文本到图像的生成能力和指令跟随性能。

蚝油菜花

1307 20 26

Janus-Pro：DeepSeek 开源的多模态模型，支持图像理解和生成

阿里云开发者

|

18天前

|

人工智能 Cloud Native Serverless

2种方式1键部署，快速体验QWQ-32B 模型

QwQ-32B 推理模型现已正式发布并开源，其卓越性能在多项基准测试中表现突出，与全球领先模型比肩。阿里云函数计算 FC 提供算力支持，Serverless+AI 云原生应用开发平台 CAP 提供两种部署方式：模型服务和应用模板，帮助用户快速部署 QwQ-32B 系列模型。用户可通过一键部署体验对话功能或以 API 形式接入 AI 应用。文档详细介绍了前置准备、部署步骤及验证方法，并提供删除项目指南以降低费用。来源：阿里云开发者公众号；作者：肯梦、折原。

阿里云开发者

76 0 0

2种方式1键部署，快速体验QWQ-32B 模型

阿里云大数据Al技术

|

2月前

|

机器学习/深度学习人工智能缓存

云上玩转DeepSeek系列之五：实测优化16%, 体验FlashMLA加速DeepSeek-V2-Lite推理

DeepSeek-AI 开源的 FlashMLA 是一个优化多层注意力机制的解码内核，显著提升大语言模型的长序列处理和推理效率。本文介绍了如何在 PAI 平台上安装并使用 FlashMLA 部署 DeepSeek-V2-Lite-Chat 模型。通过优化后的 FlashMLA，实现了约 16% 的性能提升。

阿里云大数据Al技术

250 10 10

码农小达人

|

1月前

|

人工智能自然语言处理算法

0元！使用魔搭免费算力，基于Qwen基座模型，复现DeepSeek-R1

0元！使用魔搭免费算力，基于Qwen基座模型，复现DeepSeek-R1

码农小达人

51 7 7

热门文章

最新文章

【复盘】从肩挑背扛到99%聚石塔订单，AliCloudDB四年双11技术突破！

2011年功力的德哥教你两天撸通PostgreSQL - 入门、开发、原理、管理、调优

Curl指定源端口访问网站

Python-OpenCV学习（十）用GrabCUt算法进行图片前景的提取

修改host正常稳定的访问谷歌

函数栈帧深度剖析（一篇带你牢牢掌握函数栈帧）（一）

【物联网智能网关-09】CAN总线通信演示(TinyGUI触屏)

PHP 面试题总结

Alcatraz的安装和使用

putty能使用串口

HarmonyOS：ArkTS Path 组件自学指南

HarmonyOS NEXT - ArkUI: Button组件

HarmonyOS NEXT - ArkUI: Image组件

HarmonyOS NEXT - ArkUI: TextInput组件

G1原理—9.如何优化G1中的MGC

基于免疫算法的最优物流仓储点选址方案MATLAB仿真

基于PI控制器的车辆行驶控制系统simulink建模与仿真

基于GA遗传优化TCN时间卷积神经网络时间序列预测算法matlab仿真

大模型应用联网搜索：重塑智能时代的交互与决策

相关课程

更多

云原生AI套件：一键训练大模型及部署GPU共享推理服务

AIGC文生图训练营（从理论到实践）

云原生AI套件：五分钟微调宝可梦风格StableDiffusion

相关电子书

更多

魔搭中文开源模型社区 · 模型即服务

图计算专场大规模分布式图计算、学习和推理技术及创新应用论坛

图计算专场—大规模分布式图计算、学习和推理技术及创新应用论

相关实验场景

更多

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

函数计算一键部署AI大语言模型并会话

在云上部署ChatGLM2-6B大模型（GPU版）

【自由换模型】基于函数计算一键部署 Stable Diffusion

使用PAI-快速开始，低代码实现大语言模型微调和部署

通过GPU云服务器进行LLaMA-7b指令微调

下一篇

基于ECS搭建云上博客

目录

目录

你好，我是AI助理

可以解答问题、推荐解决方案等