模型简介
Qwen3.6 是阿里云通义千问团队最新推出的新一代混合专家(MoE)大语言模型系列,覆盖从轻量到旗舰的多个规格,满足不同业务场景对性能与成本的差异化需求。Qwen3.6 系列采用 MoE 稀疏激活架构,推理时激活参数量远低于总参数量,在保持顶尖推理、代码和指令遵循能力的同时,将部署成本压缩至同规模稠密模型的数分之一。
Qwen3.6 系列的核心优势:
- 稀疏激活,高效推理:MoE 架构每次推理仅激活少量专家参数,显存占用与推理延迟大幅优于同参数量稠密模型,GPU 利用率更高
- 综合能力全面领先:在推理、数学、代码生成、指令遵循和多语言理解等主流基准上超越同量级开源模型
- 多规格灵活选择:提供标准版(BF16)与 FP8 量化版,FP8 版相比 BF16 显存占用减少约 50%,推理吞吐显著提升,适合对成本敏感的生产场景
- 工具调用与 Agent 就绪:原生支持 Function Calling 和多步 Agent 工作流,可直接用于构建复杂 AI 应用
- 多语言支持:覆盖中文、英文等 100+ 语言,跨语言理解与生成能力全面
部署步骤
- 在计算巢模型市场中找到目标 Qwen3.6 模型,点击「开始部署」,或通过以下链接直达模型市场:https://computenest.console.aliyun.com/ai-lab/model/cn-hangzhou
- 平台支持 vLLM 部署框架,部署参数均已提供默认配置,无需额外修改即可一键部署。
注意:1.选择 ACS 集群部署时,在使用 GU8TF / GU8TEF / P16EN 等大显存 GPU 卡型时,需要提交工单申请对应 GPU 卡型白名单后方可部署,工单产品分类选择「容器计算服务 ACS」。
2.使用ECS部署时,CPU核数过少也会导致模型输出慢。
- 部署成功后,即可在服务实例概览页查看 API 调用示例、访问地址和 ApiKey,立即开始调用。 快速验证示例:
curl -X POST http://${ServerIP}:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer ${ApiKey}" \ -d '{ "model": "${ModelName}", "stream": true, "messages": [{"role": "user", "content": "介绍一下你自己"}] }'
更多模型支持
计算巢模型市场持续提供开源社区热门模型的快速部署,模型覆盖 Qwen、DeepSeek、Kimi、GLM 等系列,同时联合 ACS 团队提供了 PD 分离的高性能推理方案,欢迎大家使用。
部署过程遇到问题,可以加入官方钉钉群咨询: