仅3步!即刻拥有 QwQ-32B,性能比肩全球最强开源模型

简介: 本文介绍如何将QwQ-32B开源模型部署到阿里云函数计算FC,并通过云原生应用开发平台CAP实现Ollama和Open WebUI两个FC函数的部署。Ollama负责托管QwQ-32B-GGUF模型,Open WebUI提供用户交互界面。借助CAP平台,用户可快速完成模型部署,无需关注底层资源管理与运维问题,专注于应用创新与开发。CAP提供免运维、弹性伸缩及高可用性的高效开发环境,并采用按量付费模式降低资源成本。方案使用华北2(北京)地域,默认配置部署,预计耗时10~12分钟。体验后建议清理资源以避免额外费用。

本方案现在支持免费试用,点击https://www.aliyun.com/solution/tech-solution-deploy/2873031方案链接即可体验


本文详细介绍如何将 QwQ-32B 开源模型部署到函数计算 FC(Function Compute),并通过云原生应用开发平台 CAP(Cloud Application Platform)实现 Ollama 和 Open WebUI 两个 FC 函数的部署。具体来说,Ollama 负责托管 QwQ-32B-GGUF 模型,而 Open WebUI 则用于提供用户界面,支持与模型的交互。


通过 CAP 平台,用户可以快速便捷地完成模型部署,无需担心底层资源管理和运维问题,从而能够专注于应用的创新和开发。CAP 提供了一个免运维的高效开发环境,具备弹性伸缩和高可用性,确保系统在负载变化时仍能保持稳定运行。此外,CAP 采用按量付费模式,用户只需为实际使用的资源付费,有效降低了资源闲置成本。


1.方案架构

本方案的技术架构包括以下云服务:

  • 1 个云原生应用开发平台 CAP 项目:全托管的 Serverless 计算服务,用于部署模型服务与 Web 应用。
  • 1 个文件存储 NAS:存储模型。

按照本方案提供的配置完成部署后,会在阿里云上搭建一个如下图所示的运行环境:

2.部署 QwQ-32B 模型


2.1准备账号


如果您还没有阿里云账号,请访问阿里云账号注册页面[1],根据页面提示完成注册。

1. 登录函数计算服务控制台[2],根据页面提示完成开通。

2. 开通后,登录函数计算服务控制台,完成阿里云服务授权。


费用说明

说明

函数计算提供的试用额度(链接[3]领取)和文件存储提供的试用额度(链接[4]领取)可以完全覆盖本教程所需资源消耗。

假设您未领取或免费试用额度已耗尽,预计体验费用将不超过 9 元/小时。实际使用中可能会因您调整实例数而导致费用有所变化,请以控制台显示的实际报价以及最终账单为准。


重要

在函数计算中创建的 GPU 函数,计费基于函数规格乘以实际运行时长。如果没有请求调用,仅收取闲置预留模式下的快照费用。

若不用于生产环境,建议在体验后按提示清理资源,避免继续产生费用。



2.2模型部署


1. 请点击前往部署[5]打开我们提供的云原生应用开发平台 CAP 项目模板,本方案地域以华北2(北京)为例,其他参数选择默认配置直接单击部署项目,最后在弹出面板中单击确认部署,部署预计等待 10~12 分钟。


说明

首次使用云原生应用开放平台 CAP 会自动跳转到访问控制快速授权页面,滚动到浏览器底部单击确认授权,等待授权结束后单击返回控制台


2.部署完成后,类似下图所示。



2.3应用体验


一、访问示例应用

  1. 应用部署完成之后按照下图找到访问地址。

  1. 点击访问地址,即可打开示例应用。

二、与模型对话

在文本输入框中可以进行对话交互。输入问题你是谁?或者其他指令后,调用模型服务获得相应的响应。

三、修改 Ollama 模型服务配置

按照下图所示,通过修改模型服务预留实例数的配置,来实现实例伸缩。

四、使用 Chatbox 客户端配置 Ollama API 进行对话

  1. 获取 API 接入地址,按照下图所示,复制访问地址。

2. 访问 Chatbox 下载地址[6]下载并安装客户端,本方案以 macOS M3 为例。


3.运行并配置 Ollama API ,单击设置。

4.下拉选择模型提供方Ollama API,填写 API 域名(步骤 1 中获取的访问地址),下拉选择模型cap-qwq:latest,最后单击保存。

5.在文本输入框中可以进行对话交互。输入问题你是谁?或者其他指令后,调用模型服务获得相应的响应。



2.4清理资源


删除云原生应用开发平台 CAP 项目:

登录云原生应用开发平台 CAP 控制台[7],在左侧导航栏,选择项目,找到部署的目标项目,在操作列单击删除,然后根据页面提示删除项目。




参考链接:


参考一

参考二

参考三

参考三

参考四

参考五

参考六



来源  |  阿里云开发者公众号


相关文章
|
机器学习/深度学习 算法 PyTorch
挑战Transformer的新架构Mamba解析以及Pytorch复现
今天我们来详细研究这篇论文“Mamba:具有选择性状态空间的线性时间序列建模”
3004 2
|
存储 Java UED
Java网络编程:实现文件断点续传功能
文件下载是网络应用程序中的常见任务,而断点续传是提供更好用户体验的重要功能之一。本文将详细介绍如何使用Java实现文件断点续传功能,使用户能够在下载中断后从上次中断的地方继续下载。
608 0
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器4核8G配置:ECS实例规格、CPU型号及使用场景说明
阿里云4核8G服务器ECS提供多种实例规格,包括高主频计算型hfc8i、计算型c8i、通用算力型u1、经济型e等。各规格配备不同CPU型号与主频性能,适用于机器学习、数据分析、游戏服务器、Web前端等多种场景。用户可根据需求选择Intel或AMD处理器,如第四代Xeon或AMD EPYC系列,满足高性能计算及企业级应用要求。更多详情参见阿里云官方文档。
1080 1
|
人工智能 自然语言处理 API
阿里云百炼产品月刊【2025年3月】
2025年3月的阿⾥云百炼平台月刊突出展示了其在AI模型和服务上的显著进展。本期亮点包括推出了多个先进的多模态模型,如qwen2.5-omni-7b和视觉推理模型qvq-max系列,大幅提升了文本、图像、语音和视频的处理能力,并降低了计算成本。此外,平台引入了精准的语音识别和翻译模型gummy-realtime-v1及gummy-chat-v1,支持多语言实时交互。为了促进应用开发,阿里云百炼平台还发布了开源推理模型qwq-32b,以及一系列优化的智能体应用模型,增强了自动化和交互性。最后,通过新增周边查询插件和基于MCP的析⾔服务,进一步扩展了平台的功能和服务范围。
1572 8
|
数据采集 存储 人工智能
智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧(16 - 1)
本文深度聚焦 AI 模型训练效率优化,全面涵盖数据预处理(清洗、归一化、增强)、模型架构(轻量级应用、剪枝与量化)、训练算法与超参数调优(自适应学习率、优化算法)等核心维度。结合自动驾驶、动物图像识别、语音识别等多领域实际案例,佐以丰富且详细的代码示例,深度剖析技术原理与应用技巧,为 AI 从业者呈上极具专业性、可操作性与参考价值的技术宝典,助力高效优化模型训练效率与性能提升。
智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧(16 - 1)
|
自然语言处理 测试技术 决策智能
让RAG更聪明,ViDoRAG开启视觉文档检索增强生成新范式,上阿里云百炼可直接体验
视觉丰富文档的高效检索与生成是自然语言处理领域的重大挑战。ViDoRAG(Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents)由阿里巴巴通义实验室、中国科学技术大学和上海交通大学联合提出,通过多智能体框架和动态迭代推理机制解决此问题。其核心包括多模态混合检索策略和多智能体生成流程,同时发布的ViDoSeek数据集,专为大规模文档集合设计,提供复杂推理与精准问答的评估基准。实验表明,ViDoRAG在准确率和效率上优于传统方法,未来将优化系统性能并降低计算成本。
1222 63
|
人工智能 机器人 数据库
使用FlowiseAI轻松搭建AI驱动的交互式应用
FlowiseAI 是一款开源低代码工具,旨在帮助开发者构建自定义的语言学习模型应用。它提供拖放界面,支持与多种AI模型和数据库集成,适用于创建聊天机器人等交互式应用。使用阿里云的计算巢,用户可通过一键部署快速启动FlowiseAI,并通过简单的步骤配置和运行自定义的LLM应用。
|
设计模式 程序员 Android开发
android开发的基础,大厂程序员35岁后的职业出路在哪
android开发的基础,大厂程序员35岁后的职业出路在哪
android开发的基础,大厂程序员35岁后的职业出路在哪
|
前端开发 JavaScript 算法
CSS【详解】样式选择器的优先级(含提升优先级的方法)
CSS【详解】样式选择器的优先级(含提升优先级的方法)
965 0
CSS【详解】样式选择器的优先级(含提升优先级的方法)