无论使用平台预置模型还是经调优后的自定义模型,用户均可通过部署获取独立、资源专享的推理服务,以满足高并发、低延迟等多样化业务性能需求。以下为完整的部署指南,涵盖计费方式、部署流程、调用方式及常见问题。

一、三种部署计费方式对比
部署前可在模型部署控制台(北京)查看不同模型的预估每小时费用。需注意:计费方式在服务创建后不可更改,如需切换,须先下线已部署模型,再重新部署。通过阿里云百炼大模型服务平台:https://www.aliyun.com/product/bailian 登录阿里云百炼控制台,导航至“模型部署”页面,点击“部署新模型”。

| 预置吞吐(PTU) | 模型单元 | Token 用量 | |
|---|---|---|---|
| 定义 | 通过平台预留资源,保障特定TPM吞吐能力,额度内不限速 | 按使用时长与模型单元数量配置算力,资源独占 | 以每次调用产生的输入/输出Token作为用量计量依据 |
| 优势 | ① 高负载环境吞吐稳定、延迟更低 ② TPS较按Token计费提升约1.5~2.0倍 ③ 支持自动续费 | ① 延迟/吞吐可自定义 ② 支持自动续费 ③ 支持PD分离计算模式 | 不使用不计费 |
| 支持模型 | 部分预置模型 | 部分预置模型与所有调优后模型 | 部分LoRA调优后的模型 |
| 典型场景 | 银行智能客服、内容审核、翻译API | 电商私有模型、分子筛选、自动驾驶仿真 | 调优后模型效果验证 |
| 计费方式 | 按使用时长和预置吞吐,随用随付/包天 | 按使用时长和模型单元数量,随用随付/包月 | 按Token使用量,随用随付 |
| 扩缩容 | 自助增减吞吐量 | 自助增减模型单元数量 | 控制台提交申请,人工审核 |
| 产品约束 | 预付费按天,不可提前退费;超量自动切换为按量付费 | 首月内提前退订,日单价按1.2倍计费 | 仅支持部分LoRA模型;一个月不使用自动释放 |
二、计费详情
1. 预置吞吐(PTU)计费
费用 = 使用时长 ×(输入TPM单价 × 输入TPM + 输出TPM单价 × 输出TPM)
后付费按小时计费,预付费按天计费。
预付费订单支付后实时生效,22:00后下单则到期日自动顺延1天。
预付费到期后延后2小时停止服务,资源保留14小时后释放,不可提前终止。
后付费欠费时,资源保留并继续计费24小时后自动释放。
当输入超过最长Token或超出购买TPM量时,系统将自动切换为按量付费模式,性能可能有所下降。
千问系列
| 模型名称 | 模型代码 | 最长输入Token | 后付费输入/10K TPM/小时 | 后付费输出/1K TPM/小时 | 预付费输入/10K TPM/天 | 预付费输出/1K TPM/天 |
|---|---|---|---|---|---|---|
| 千问3.7-Max-2026-05-20 | qwen3.7-max-2026-05-20 | 128,000 | ¥28.8 | ¥8.64 | ¥345.6 | ¥103.68 |
| 千问3.6-Flash-2026-04-16 | qwen3.6-flash-2026-04-16 | 128,000 | ¥2.88 | ¥1.73 | ¥34.56 | ¥20.74 |
| 千问3.6-Plus-2026-04-02 | qwen3.6-plus-2026-04-02 | 128,000 | ¥4.8 | ¥2.88 | ¥57.6 | ¥34.56 |
| 千问3.5-Plus-2026-04-20 | qwen3.5-plus-2026-04-20 | 128,000 | ¥1.92 | ¥1.15 | ¥23.04 | ¥13.82 |
| 千问3-Max-2025-09-23 | qwen3-max-2025-09-23 | 128,000 | ¥7.68 | ¥3.08 | ¥92.16 | ¥36.96 |
| 千问-Flash-2025-07-28 | qwen-flash-2025-07-28 | 128,000 | ¥0.36 | ¥0.36 | ¥4.32 | ¥4.32 |
| 千问-Plus-2025-12-01 | qwen-plus-2025-12-01 | 128,000 | ¥1.92 | 非思考¥0.48/思考¥1.92 | ¥23.04 | 非思考¥5.76/思考¥23.04 |
DeepSeek系列
| 模型名称 | 模型代码 | 最长输入Token | 后付费输入/10K TPM/小时 | 后付费输出/1K TPM/小时 | 预付费输入/10K TPM/天 | 预付费输出/1K TPM/天 |
|---|---|---|---|---|---|---|
| DeepSeek-v4-Pro | deepseek-v4-pro | 64,000 | ¥43.2 | ¥8.64 | ¥518.4 | ¥103.68 |
| DeepSeek-v3.2 | deepseek-v3.2 | 64,000 | ¥7.2 | ¥1.08 | ¥86.4 | ¥12.96 |
| DeepSeek-v3 | deepseek-v3 | 64,000 | ¥7.2 | ¥2.88 | ¥86.4 | ¥34.56 |
千问VL系列
| 模型名称 | 模型代码 | 最长输入Token | 后付费输入/10K TPM/小时 | 后付费输出/1K TPM/小时 | 预付费输入/10K TPM/天 | 预付费输出/1K TPM/天 |
|---|---|---|---|---|---|---|
| 千问3-VL-Plus-2025-09-23 | qwen3-vl-plus-2025-09-23 | 128,000 | ¥2.4 | ¥2.4 | ¥28.8 | ¥28.8 |
更多模型
| 模型名称 | 模型代码 | 最长输入Token | 后付费输入/10K TPM/小时 | 后付费输出/1K TPM/小时 | 预付费输入/10K TPM/天 | 预付费输出/1K TPM/天 |
|---|---|---|---|---|---|---|
| GLM-5.1 | glm-5.1 | 64,000 | ¥21.6 | ¥8.64 | ¥259.2 | ¥103.68 |
2. 模型单元计费
费用 = 使用时长(小时)× 模型单元数量 × 模型单元单价
预付费按月:包月数 × 模型单元数量 × 月单价
首月内提前退订,日单价按1.2倍计费(不满一天按一天计算)。
文本生成——千问
| 模型名称 | 模型代码 | 模型单元规格 | 小时单价(元) | 包月单价(元) |
|---|---|---|---|---|
| 千问3.6-35B-A3B | qwen3.6-35b-a3b | MU8 x 1 | ¥47 | ¥22,400 |
| MU9 x 1 | ¥51 | ¥24,600 | ||
| 千问3.6-27B | qwen3.6-27b | MU9 x 1 | ¥51 | ¥24,600 |
| 千问3.6-Flash | qwen3.6-flash-2026-04-16 | MU1 x 2 | ¥108 | ¥52,236 |
| 千问3.6-Plus | qwen3.6-plus-2026-04-02 | MU1 x 8 / MU1 x 16(PD分离) | ¥432 / ¥864 | ¥208,944 / ¥417,888 |
| 千问3.5-397B-A17B | qwen3.5-397b-a17b | MU2 x 8 | ¥504 | ¥240,288 |
| MU3 x 8 / MU3 x 16(PD分离) | ¥1,096 / ¥2,192 | ¥527,752 / ¥1,055,504 | ||
| MU6 x 16 | ¥400 | ¥193,424 | ||
| 千问3.5-122B-A10B | qwen3.5-122b-a10b | MU1 x 4 | ¥216 | ¥104,472 |
| MU2 x 8 | ¥504 | ¥240,288 | ||
| MU6 x 16 | ¥400 | ¥193,424 | ||
| MU9 x 2 | ¥102 | ¥49,200 | ||
| 千问3.5-35B-A3B | qwen3.5-35b-a3b | MU1 x 2 | ¥108 | ¥52,236 |
| MU2 x 8 | ¥504 | ¥240,288 | ||
| MU8 x 1 | ¥47 | ¥22,400 | ||
| MU9 x 1 | ¥51 | ¥24,600 | ||
| 千问3.5-27B | qwen3.5-27b | MU1 x 2 | ¥108 | ¥52,236 |
| MU9 x 1 | ¥51 | ¥24,600 | ||
| 千问3.5-9B | qwen3.5-9b | MU1 x 2 | ¥108 | ¥52,236 |
| MU8 x 1 | ¥47 | ¥22,400 | ||
| MU9 x 1 | ¥51 | ¥24,600 | ||
| 千问3.5-Flash | qwen3.5-flash-2026-02-23 | MU1 x 2 | ¥108 | ¥52,236 |
| 千问3.5-Plus | qwen3.5-plus-2026-02-15 | MU1 x 16(PD分离) | PD分离¥864 | PD分离¥417,888 |
| MU3 x 8 / MU3 x 16(PD分离) | ¥1,096 / ¥2,192 | ¥527,752 / ¥1,055,504 | ||
| 千问3-235B-A22B | qwen3-235b-a22b-instruct-2507 | MU1 x 4 | ¥216 | ¥104,472 |
| MU2 x 8 | ¥504 | ¥240,288 | ||
| 千问3-Next-80B-A3B | qwen3-next-80b-a3b-instruct | MU1 x 2 | ¥108 | ¥52,236 |
| 千问3-32B | qwen3-32b | MU1 x 4 | ¥216 | ¥104,472 |
| MU6 x 4 | ¥100 | ¥48,356 | ||
| 千问3-30B-A3B | qwen3-30b-a3b | MU9 x 2 | ¥102 | ¥49,200 |
| 千问3-30B-A3B-Instruct | qwen3-30b-a3b-instruct-2507 | MU1 x 4 | ¥216 | ¥104,472 |
| MU2 x 8 | ¥504 | ¥240,288 | ||
| 千问3-8B | qwen3-8b | MU1 x 2 | ¥108 | ¥52,236 |
| MU2 x 2 | ¥126 | ¥60,072 | ||
| MU5 x 1 | ¥21 | ¥10,139 | ||
| 千问3-4B | qwen3-4b | MU1 x 2 | ¥108 | ¥52,236 |
| MU5 x 1 | ¥21 | ¥10,139 | ||
| 千问3-1.7B | qwen3-1.7b | MU1 x 2 | ¥108 | ¥52,236 |
| MU5 x 1 | ¥21 | ¥10,139 | ||
| 千问3-Embedding | qwen3-embedding-0.6b | MU5 x 1 | ¥21 | ¥10,139 |
| MU6 x 1 | ¥25 | ¥12,089 | ||
| 千问3-MoE-Rerank | qwen3-moe-rerank-0.6b | MU5 x 1 | ¥21 | ¥10,139 |
| 千问3-Rerank | qwen3-rerank-0.6b | MU5 x 1 | ¥21 | ¥10,139 |
| MU6 x 1 | ¥25 | ¥12,089 | ||
| 千问3-Max | qwen3-max-2025-09-23 | MU2 x 8 | ¥504 | ¥240,288 |
| MU3 x 8 | ¥1,096 | ¥527,752 | ||
| 千问3-Rerank | qwen3-rerank | MU5 x 1 | ¥21 | ¥10,139 |
| 千问2.5-72B | qwen2.5-72b-instruct | MU1 x 4 | ¥216 | ¥104,472 |
| 千问2.5-32B | qwen2.5-32b-instruct | MU1 x 4 | ¥216 | ¥104,472 |
| 千问2.5-14B | qwen2.5-14b-instruct | MU1 x 2 | ¥108 | ¥52,236 |
| 千问2.5-7B | qwen2.5-7b-instruct | MU1 x 2 | ¥108 | ¥52,236 |
| MU5 x 1 | ¥21 | ¥10,139 | ||
| 千问2.5-3B | qwen2.5-3b-instruct | MU5 x 1 | ¥21 | ¥10,139 |
| 千问-Flash | qwen-flash-2025-07-28 | MU1 x 4 | ¥216 | ¥104,472 |
| 千问-Plus | qwen-plus-2025-07-28 | MU1 x 4 / MU1 x 16(PD分离) | ¥216 / PD分离¥864 | ¥104,472 / PD分离¥417,888 |
| 千问-Plus | qwen-plus-2025-12-01 | MU1 x 4 | ¥216 | ¥104,472 |
GLM系列
| 模型名称 | 模型代码 | 模型单元规格 | 小时单价(元) | 包月单价(元) |
|---|---|---|---|---|
| GLM-5 | glm-5 | MU3 x 16(PD分离) | PD分离¥2,192 | PD分离¥1,055,504 |
| GLM-4.7 | glm-4.7 | MU6 x 32(PD分离) | PD分离¥800 | PD分离¥386,848 |
DeepSeek系列
| 模型名称 | 模型代码 | 模型单元规格 | 小时单价(元) | 包月单价(元) |
|---|---|---|---|---|
| DeepSeek-v4-Flash | deepseek-v4-flash | MU1 x 8 | ¥432 | ¥208,944 |
| DeepSeek-v3.2 | deepseek-v3.2 | MU2 x 16(PD分离) | PD分离¥1,008 | PD分离¥480,576 |
更多模型
| 模型名称 | 模型代码 | 模型单元规格 | 小时单价(元) | 包月单价(元) |
|---|---|---|---|---|
| MiniMax-M2.5 | MiniMax-M2.5 | MU1 x 16(PD分离) | PD分离¥864 | PD分离¥417,888 |
| Kimi-K2.5 | kimi-k2.5 | MU2 x 8 | ¥504 | ¥240,288 |
模型类型说明:
Instruct — 部署后以非思考模式进行推理。
Thinking — 部署后以思考模式进行推理。
PD分离模式说明:将首Token计算(Prefill)与后续Token计算(Decode)分配至不同节点执行,以降低首Token延迟并提升吞吐。
多模态——千问VL
| 模型名称 | 模型代码 | 模型单元规格 | 小时单价(元) | 包月单价(元) |
|---|---|---|---|---|
| 千问3-VL-235B-A22B-Instruct | qwen3-vl-235b-a22b-instruct | MU1 x 4 | ¥216 | ¥104,472 |
| 千问3-VL-235B-A22B-Thinking | qwen3-vl-235b-a22b-thinking | MU1 x 4 | ¥216 | ¥104,472 |
| 千问3-VL-32B-Instruct | qwen3-vl-32b-instruct | MU2 x 8 | ¥504 | ¥240,288 |
| 千问3-VL-8B-Instruct | qwen3-vl-8b-instruct | MU1 x 2 | ¥108 | ¥52,236 |
| 千问3-VL-4B-Instruct | qwen3-vl-4b-instruct | MU1 x 2 | ¥108 | ¥52,236 |
| 千问3-VL-2B-Instruct | qwen3-vl-2b-instruct | MU5 x 1 | ¥21 | ¥10,139 |
| 千问3-VL-Embedding | qwen3-vl-embedding-2b | MU5 x 1 | ¥21 | ¥10,139 |
| 千问3-VL-Flash | qwen3-vl-flash-2025-10-15 | MU1 x 4 | ¥216 | ¥104,472 |
| 千问3-VL-Plus | qwen3-vl-plus-2025-09-23 | MU1 x 4 | ¥216 | ¥104,472 |
| 千问VL-Max | qwen-vl-max-2025-08-13 | MU6 x 4 | ¥100 | ¥48,356 |
| 千问VL-OCR | qwen-vl-ocr-2025-11-20 | MU6 x 4 | ¥100 | ¥48,356 |
千问 Omni
| 模型名称 | 模型代码 | 模型单元规格 | 小时单价(元) | 包月单价(元) |
|---|---|---|---|---|
| 千问3.5-Omni-Flash | qwen3.5-omni-flash | MU8 x 1 | ¥47 | ¥22,400 |
| MU9 x 1 | ¥51 | ¥24,600 | ||
| 千问3.5-Omni-Plus | qwen3.5-omni-plus | MU9 x 8 | ¥408 | ¥196,800 |
语音合成——CosyVoice
| 模型名称 | 模型代码 | 模型单元规格 | 小时单价(元) | 包月单价(元) |
|---|---|---|---|---|
| cosyvoice-v3-flash | cosyvoice-v3-flash | MU5 | ¥21 | ¥10,139 |
3. Token用量计费
费用 = 输入Token数 × 输入单价 + 输出Token数 × 输出单价(最小计费单位:1 token)
仅当对基础模型完成SFT高效训练并获得自定义模型后,方可采用此计费方式。
千问
| 基础模型 | 模型代码 | 输入(元/千Token) | 输出(元/千Token) |
|---|---|---|---|
| 千问3-32B | qwen3-32b | ¥0.002 | 非思考¥0.008 / 思考¥0.02 |
| 千问3-14B | qwen3-14b | ¥0.001 | 非思考¥0.004 / 思考¥0.01 |
| 千问3-8B | qwen3-8b | ¥0.0005 | 非思考¥0.002 / 思考¥0.005 |
| 千问2.5-72B | qwen2.5-72b-instruct | ¥0.004 | ¥0.012 |
| 千问2.5-32B | qwen2.5-32b-instruct | ¥0.002 | ¥0.006 |
| 千问2.5-14B | qwen2.5-14b-instruct | ¥0.001 | ¥0.003 |
| 千问2.5-7B | qwen2.5-7b-instruct | ¥0.0005 | ¥0.001 |
千问VL
| 基础模型 | 模型代码 | 输入(元/千Token) | 输出(元/千Token) |
|---|---|---|---|
| 千问3-VL-8B-Instruct | qwen3-vl-8b-instruct | ¥0.0005 | ¥0.002 |
| 千问2.5-VL-72B | qwen2.5-vl-72b-instruct | ¥0.016 | ¥0.048 |
| 千问2.5-VL-32B | qwen2.5-vl-32b-instruct | ¥0.008 | ¥0.024 |
| 千问2.5-VL-7B | qwen2.5-vl-7b-instruct | ¥0.002 | ¥0.005 |
三、部署方法
操作步骤如下:
前往模型部署控制台(北京)。
选择模型及计费方式,其余设置保持默认,设置模型名称后开始部署。

须先完成模型调优,方可部署大部分模型。
- 部署状态显示为运行中,即表示部署成功。

模型部署成功后将开始产生费用。
3.1 部署配置说明
| 配置项 | 说明 |
|---|---|
| 推理模式 | 部分模型支持配置:Instruct(非思考)/ Thinking(思考) |
| 最长上下文 | 部分模型支持,长度依据模型类型确定 |
| 服务限流 | 部分模型支持,可限制RPM、TPM |
四、部署后调用
模型部署成功后,支持通过 OpenAI兼容接口、DashScope 及 Assistant SDK 进行调用。
调用时,model 参数应填写部署成功后的模型 code,该信息可在控制台获取。

模型特性(如是否支持非流式输出、结构化输出等)与调优前保持一致。若调优数据包含深度思考内容,调用时建议开启
enable_thinking;若不包含,则不建议开启。
DashScope 调用示例
import os
import dashscope
messages = [
{
"role": "system", "content": "You are a helpful assistant."},
{
"role": "user", "content": "你是谁?"},
]
response = dashscope.Generation.call(
api_key=os.getenv("DASHSCOPE_API_KEY"),
model="qwen3-14b-xxx-xxx", # 替换为部署后的code
messages=messages,
result_format="message",
enable_thinking=False,
)
print(response)
OpenAI 兼容接口调用示例
import os
from openai import OpenAI
client = OpenAI(
api_key=os.getenv('DASHSCOPE_API_KEY'),
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen3-14b-xxx-xxx", # 替换为部署后的code
messages=[
{
"role": "system", "content": "You are a helpful assistant."},
{
"role": "user", "content": "你是谁?"},
],
extra_body={
"enable_thinking": False},
)
print(completion)
五、扩缩容方式
| 计费方式 | 扩缩容操作 |
|---|---|
| 预置吞吐(按时长) | 点击扩缩容按钮,自助调节实例数量 |
| 模型单元(按时长) | 点击扩缩容按钮,自助调节实例数量 |
| Token用量 | 点击扩容按钮,提交申请表单,等待人工审核 |
六、部署服务下线
前往模型部署控制台(北京) → 找到需下线的服务 → 点击下线并确认。

下线后不再产生计费。
七、常见问题
Q1:是否支持上传和部署自有模型?
支持在我的模型控制台(北京)导入部分开源模型。
此外,阿里云人工智能平台 PAI 提供了部署自有模型的功能。
Q2:部署时提示权限不足应如何处理?
情形一:缺少模块权限
请确认账号在该业务空间的权限管理页面已具备「模型部署-操作」权限。

情形二:业务空间无部署权限
报错示例:Workspace xxx does not have deployment privilege for model xxxx
请前往百炼业务空间管理页面,为对应空间添加模型部署权限。


若仍无法解决,请联系组织管理员或IT管理员处理。
Q3:如何切换计费方式?
须先释放原有资源,再以新计费方式创建。建议按以下步骤操作:
- 以新计费方式部署新资源。
- 切换API并测试可用性。
- 下线并释放原有资源。
2026年阿里云AI产品与云产品优惠权益参考
AI 产品权益主要包括阿里云百炼 Token Plan,提供多档位套餐,包月预算可控;HappyHorse-1.0 系列模型 限时 8 折;阿里云百炼 Token Plan,提供多档位套餐,包月预算可控;Qwen3.6全模型通享 4.5 折;Qwen3.7-Max 发布 限时 5 折;阿里云百炼优惠券,先用后返,最高200元,个企同享;阿里云 JVS Claw 39元起,一键接入 OpenClaw等。而云产品权益主要有轻量应用服务器限时抢购2核2G38元/年、2核4G9.9元1个月、199元/年;通用算力型u2i实例3折,九代c9i、g9i、r9i等实例1年付6.4折起等优惠权益。详情可通过阿里云权益中心了解:https://www.aliyun.com/benefit

小结:阿里云百炼大模型服务平台为用户提供了预置吞吐(PTU)、模型单元、Token用量三种灵活的部署计费方式,覆盖从高并发生产场景到调优验证的多元需求,并支持OpenAI兼容接口、DashScope及Assistant SDK等多种调用方式,配套完善的扩缩容与下线机制,降低了大模型落地的技术门槛。