仅3步!即刻拥有 QwQ-32B,性能比肩全球最强开源模型

简介: 本文介绍如何将QwQ-32B开源模型部署到阿里云函数计算FC,并通过云原生应用开发平台CAP实现Ollama和Open WebUI两个FC函数的部署。Ollama负责托管QwQ-32B-GGUF模型,Open WebUI提供用户交互界面。借助CAP平台,用户可快速完成模型部署,无需关注底层资源管理与运维问题,专注于应用创新与开发。CAP提供免运维、弹性伸缩及高可用性的高效开发环境,并采用按量付费模式降低资源成本。方案使用华北2(北京)地域,默认配置部署,预计耗时10~12分钟。体验后建议清理资源以避免额外费用。

本文详细介绍如何将 QwQ-32B 开源模型部署到函数计算 FC(Function Compute),并通过云原生应用开发平台 CAP(Cloud Application Platform)实现 Ollama 和 Open WebUI 两个 FC 函数的部署。具体来说,Ollama 负责托管 QwQ-32B-GGUF 模型,而 Open WebUI 则用于提供用户界面,支持与模型的交互。


通过 CAP 平台,用户可以快速便捷地完成模型部署,无需担心底层资源管理和运维问题,从而能够专注于应用的创新和开发。CAP 提供了一个免运维的高效开发环境,具备弹性伸缩和高可用性,确保系统在负载变化时仍能保持稳定运行。此外,CAP 采用按量付费模式,用户只需为实际使用的资源付费,有效降低了资源闲置成本。


1.方案架构

本方案的技术架构包括以下云服务:

  • 1 个云原生应用开发平台 CAP 项目:全托管的 Serverless 计算服务,用于部署模型服务与 Web 应用。
  • 1 个文件存储 NAS:存储模型。

按照本方案提供的配置完成部署后,会在阿里云上搭建一个如下图所示的运行环境:

2.部署 QwQ-32B 模型


2.1准备账号

如果您还没有阿里云账号,请访问阿里云账号注册页面[1],根据页面提示完成注册。

1. 登录函数计算服务控制台[2],根据页面提示完成开通。

2. 开通后,登录函数计算服务控制台,完成阿里云服务授权。


费用说明

说明

函数计算提供的试用额度(链接[3]领取)和文件存储提供的试用额度(链接[4]领取)可以完全覆盖本教程所需资源消耗。

假设您未领取或免费试用额度已耗尽,预计体验费用将不超过 9 元/小时。实际使用中可能会因您调整实例数而导致费用有所变化,请以控制台显示的实际报价以及最终账单为准。


重要

在函数计算中创建的 GPU 函数,计费基于函数规格乘以实际运行时长。如果没有请求调用,仅收取闲置预留模式下的快照费用。

若不用于生产环境,建议在体验后按提示清理资源,避免继续产生费用。

2.2模型部署

1. 请点击前往部署[5]打开我们提供的云原生应用开发平台 CAP 项目模板,本方案地域以华北2(北京)为例,其他参数选择默认配置直接单击部署项目,最后在弹出面板中单击确认部署,部署预计等待 10~12 分钟。


说明

首次使用云原生应用开放平台 CAP 会自动跳转到访问控制快速授权页面,滚动到浏览器底部单击确认授权,等待授权结束后单击返回控制台


2.部署完成后,类似下图所示。

2.3应用体验

一、访问示例应用

  1. 应用部署完成之后按照下图找到访问地址。

  1. 点击访问地址,即可打开示例应用。

二、与模型对话

在文本输入框中可以进行对话交互。输入问题你是谁?或者其他指令后,调用模型服务获得相应的响应。

三、修改 Ollama 模型服务配置

按照下图所示,通过修改模型服务预留实例数的配置,来实现实例伸缩。

四、使用 Chatbox 客户端配置 Ollama API 进行对话

  1. 获取 API 接入地址,按照下图所示,复制访问地址。

2. 访问 Chatbox 下载地址[6]下载并安装客户端,本方案以 macOS M3 为例。


3.运行并配置 Ollama API ,单击设置。

4.下拉选择模型提供方Ollama API,填写 API 域名(步骤 1 中获取的访问地址),下拉选择模型cap-qwq:latest,最后单击保存。

5.在文本输入框中可以进行对话交互。输入问题你是谁?或者其他指令后,调用模型服务获得相应的响应。

2.4清理资源

删除云原生应用开发平台 CAP 项目:

登录云原生应用开发平台 CAP 控制台[7],在左侧导航栏,选择项目,找到部署的目标项目,在操作列单击删除,然后根据页面提示删除项目。


参考链接:

参考一

参考二

参考三

参考三

参考四

参考五

参考六



来源  |  阿里云开发者公众号


相关文章
|
13天前
|
机器学习/深度学习 人工智能 文件存储
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
NVIDIA推出的Llama Nemotron系列推理模型,基于Llama架构优化,包含Nano/Super/Ultra三款,在数学推理、编程和工具调用等任务中展现卓越性能。
56 5
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
|
8天前
|
机器学习/深度学习 人工智能 算法
超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍
字节跳动推出的200B参数混合专家模型,在AIME/Codeforces/GPQA等基准测试中实现多项突破,采用强化学习框架与流式推理系统,支持7大领域复杂推理任务。
128 13
超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍
|
20天前
|
运维 Cloud Native Serverless
仅3步!即刻拥有 QwQ-32B,性能比肩全球最强开源模型
本文详细介绍如何将 QwQ-32B 开源模型部署到函数计算 FC(Function Compute),并通过云原生应用开发平台 CAP(Cloud Application Platform)实现 Ollama 和 Open WebUI 两个 FC 函数的部署。
|
1月前
|
人工智能 安全 数据可视化
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
Gemma 3 是谷歌最新推出的开源多模态AI模型,支持超过35种语言,具备文本、图像及短视频处理能力,提供四种模型尺寸,优化单GPU性能,适用于多种AI应用场景。
347 8
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
|
1月前
|
机器学习/深度学习 人工智能 测试技术
阿里云百炼已上线超强推理开源模型QwQ-32B,尺寸更小,性能比肩DeepSeek满血版
通义千问团队推出了320亿参数的QwQ-32B模型,通过大规模强化学习和多阶段训练,在数学、编程及通用能力上达到或超越了DeepSeek-R1等先进模型。QwQ-32B模型已在阿里云百炼上线,支持API调用,用户可通过官方文档了解详细使用方法。未来,团队将继续探索智能体与RL集成,推动人工通用智能的发展。
|
1月前
|
机器学习/深度学习 测试技术 API
QwQ-32B开源!更小尺寸,仅1/20参数性能比肩满血R1
今天,通义千问开源了推理模型QwQ-32B
391 17
|
2月前
|
人工智能 算法 数据格式
DeepSeek 开源周第二弹!DeepEP:专为 MoE 训练和推理设计的并行通信库
DeepEP 是 DeepSeek 开源的首个专为混合专家模型(MoE)训练和推理设计的通信库,支持高吞吐量、低延迟通信,优化 NVLink 和 RDMA 网络性能。
124 3
|
2月前
|
人工智能 自然语言处理 算法
DeepSeek模型的突破:性能超越R1满血版的关键技术解析
上海AI实验室周伯文团队的最新研究显示,7B版本的DeepSeek模型在性能上超越了R1满血版。该成果强调了计算最优Test-Time Scaling的重要性,并提出了一种创新的“弱到强”优化监督机制的研究思路,区别于传统的“从强到弱”策略。这一方法不仅提升了模型性能,还为未来AI研究提供了新方向。
597 9
|
机器学习/深度学习 人工智能 自然语言处理
性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型
性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型
553 0
|
4月前
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。
461 25