阿里云百炼大模型服务平台模型部署指南：流程与常见问题-阿里云开发者社区

无论使用平台预置模型还是经调优后的自定义模型，用户均可通过部署获取独立、资源专享的推理服务，以满足高并发、低延迟等多样化业务性能需求。以下为完整的部署指南，涵盖计费方式、部署流程、调用方式及常见问题。

百炼平台模型部署.png

一、三种部署计费方式对比

部署前可在模型部署控制台（北京）查看不同模型的预估每小时费用。需注意：计费方式在服务创建后不可更改，如需切换，须先下线已部署模型，再重新部署。通过阿里云百炼大模型服务平台：https://www.aliyun.com/product/bailian 登录阿里云百炼控制台，导航至“模型部署”页面，点击“部署新模型”。

阿里云百炼大模型服务平台.png

	预置吞吐（PTU）	模型单元	Token 用量
定义	通过平台预留资源，保障特定TPM吞吐能力，额度内不限速	按使用时长与模型单元数量配置算力，资源独占	以每次调用产生的输入/输出Token作为用量计量依据
优势	① 高负载环境吞吐稳定、延迟更低 ② TPS较按Token计费提升约1.5～2.0倍 ③ 支持自动续费	① 延迟/吞吐可自定义 ② 支持自动续费 ③ 支持PD分离计算模式	不使用不计费
支持模型	部分预置模型	部分预置模型与所有调优后模型	部分LoRA调优后的模型
典型场景	银行智能客服、内容审核、翻译API	电商私有模型、分子筛选、自动驾驶仿真	调优后模型效果验证
计费方式	按使用时长和预置吞吐，随用随付/包天	按使用时长和模型单元数量，随用随付/包月	按Token使用量，随用随付
扩缩容	自助增减吞吐量	自助增减模型单元数量	控制台提交申请，人工审核
产品约束	预付费按天，不可提前退费；超量自动切换为按量付费	首月内提前退订，日单价按1.2倍计费	仅支持部分LoRA模型；一个月不使用自动释放

二、计费详情

1. 预置吞吐（PTU）计费

费用 = 使用时长 ×（输入TPM单价 × 输入TPM + 输出TPM单价 × 输出TPM）

后付费按小时计费，预付费按天计费。
预付费订单支付后实时生效，22:00后下单则到期日自动顺延1天。
预付费到期后延后2小时停止服务，资源保留14小时后释放，不可提前终止。
后付费欠费时，资源保留并继续计费24小时后自动释放。

当输入超过最长Token或超出购买TPM量时，系统将自动切换为按量付费模式，性能可能有所下降。

千问系列

模型名称	模型代码	最长输入Token	后付费输入/10K TPM/小时	后付费输出/1K TPM/小时	预付费输入/10K TPM/天	预付费输出/1K TPM/天
千问3.7-Max-2026-05-20	qwen3.7-max-2026-05-20	128,000	¥28.8	¥8.64	¥345.6	¥103.68
千问3.6-Flash-2026-04-16	qwen3.6-flash-2026-04-16	128,000	¥2.88	¥1.73	¥34.56	¥20.74
千问3.6-Plus-2026-04-02	qwen3.6-plus-2026-04-02	128,000	¥4.8	¥2.88	¥57.6	¥34.56
千问3.5-Plus-2026-04-20	qwen3.5-plus-2026-04-20	128,000	¥1.92	¥1.15	¥23.04	¥13.82
千问3-Max-2025-09-23	qwen3-max-2025-09-23	128,000	¥7.68	¥3.08	¥92.16	¥36.96
千问-Flash-2025-07-28	qwen-flash-2025-07-28	128,000	¥0.36	¥0.36	¥4.32	¥4.32
千问-Plus-2025-12-01	qwen-plus-2025-12-01	128,000	¥1.92	非思考¥0.48/思考¥1.92	¥23.04	非思考¥5.76/思考¥23.04

DeepSeek系列

模型名称	模型代码	最长输入Token	后付费输入/10K TPM/小时	后付费输出/1K TPM/小时	预付费输入/10K TPM/天	预付费输出/1K TPM/天
DeepSeek-v4-Pro	deepseek-v4-pro	64,000	¥43.2	¥8.64	¥518.4	¥103.68
DeepSeek-v3.2	deepseek-v3.2	64,000	¥7.2	¥1.08	¥86.4	¥12.96
DeepSeek-v3	deepseek-v3	64,000	¥7.2	¥2.88	¥86.4	¥34.56

千问VL系列

模型名称	模型代码	最长输入Token	后付费输入/10K TPM/小时	后付费输出/1K TPM/小时	预付费输入/10K TPM/天	预付费输出/1K TPM/天
千问3-VL-Plus-2025-09-23	qwen3-vl-plus-2025-09-23	128,000	¥2.4	¥2.4	¥28.8	¥28.8

更多模型

模型名称	模型代码	最长输入Token	后付费输入/10K TPM/小时	后付费输出/1K TPM/小时	预付费输入/10K TPM/天	预付费输出/1K TPM/天
GLM-5.1	glm-5.1	64,000	¥21.6	¥8.64	¥259.2	¥103.68

2. 模型单元计费

费用 = 使用时长（小时）× 模型单元数量 × 模型单元单价

预付费按月：包月数 × 模型单元数量 × 月单价

首月内提前退订，日单价按1.2倍计费（不满一天按一天计算）。

文本生成——千问

模型名称	模型代码	模型单元规格	小时单价（元）	包月单价（元）
千问3.6-35B-A3B	qwen3.6-35b-a3b	MU8 x 1	¥47	¥22,400
		MU9 x 1	¥51	¥24,600
千问3.6-27B	qwen3.6-27b	MU9 x 1	¥51	¥24,600
千问3.6-Flash	qwen3.6-flash-2026-04-16	MU1 x 2	¥108	¥52,236
千问3.6-Plus	qwen3.6-plus-2026-04-02	MU1 x 8 / MU1 x 16（PD分离）	¥432 / ¥864	¥208,944 / ¥417,888
千问3.5-397B-A17B	qwen3.5-397b-a17b	MU2 x 8	¥504	¥240,288
		MU3 x 8 / MU3 x 16（PD分离）	¥1,096 / ¥2,192	¥527,752 / ¥1,055,504
		MU6 x 16	¥400	¥193,424
千问3.5-122B-A10B	qwen3.5-122b-a10b	MU1 x 4	¥216	¥104,472
		MU2 x 8	¥504	¥240,288
		MU6 x 16	¥400	¥193,424
		MU9 x 2	¥102	¥49,200
千问3.5-35B-A3B	qwen3.5-35b-a3b	MU1 x 2	¥108	¥52,236
		MU2 x 8	¥504	¥240,288
		MU8 x 1	¥47	¥22,400
		MU9 x 1	¥51	¥24,600
千问3.5-27B	qwen3.5-27b	MU1 x 2	¥108	¥52,236
		MU9 x 1	¥51	¥24,600
千问3.5-9B	qwen3.5-9b	MU1 x 2	¥108	¥52,236
		MU8 x 1	¥47	¥22,400
		MU9 x 1	¥51	¥24,600
千问3.5-Flash	qwen3.5-flash-2026-02-23	MU1 x 2	¥108	¥52,236
千问3.5-Plus	qwen3.5-plus-2026-02-15	MU1 x 16（PD分离）	PD分离¥864	PD分离¥417,888
		MU3 x 8 / MU3 x 16（PD分离）	¥1,096 / ¥2,192	¥527,752 / ¥1,055,504
千问3-235B-A22B	qwen3-235b-a22b-instruct-2507	MU1 x 4	¥216	¥104,472
		MU2 x 8	¥504	¥240,288
千问3-Next-80B-A3B	qwen3-next-80b-a3b-instruct	MU1 x 2	¥108	¥52,236
千问3-32B	qwen3-32b	MU1 x 4	¥216	¥104,472
		MU6 x 4	¥100	¥48,356
千问3-30B-A3B	qwen3-30b-a3b	MU9 x 2	¥102	¥49,200
千问3-30B-A3B-Instruct	qwen3-30b-a3b-instruct-2507	MU1 x 4	¥216	¥104,472
		MU2 x 8	¥504	¥240,288
千问3-8B	qwen3-8b	MU1 x 2	¥108	¥52,236
		MU2 x 2	¥126	¥60,072
		MU5 x 1	¥21	¥10,139
千问3-4B	qwen3-4b	MU1 x 2	¥108	¥52,236
		MU5 x 1	¥21	¥10,139
千问3-1.7B	qwen3-1.7b	MU1 x 2	¥108	¥52,236
		MU5 x 1	¥21	¥10,139
千问3-Embedding	qwen3-embedding-0.6b	MU5 x 1	¥21	¥10,139
		MU6 x 1	¥25	¥12,089
千问3-MoE-Rerank	qwen3-moe-rerank-0.6b	MU5 x 1	¥21	¥10,139
千问3-Rerank	qwen3-rerank-0.6b	MU5 x 1	¥21	¥10,139
		MU6 x 1	¥25	¥12,089
千问3-Max	qwen3-max-2025-09-23	MU2 x 8	¥504	¥240,288
		MU3 x 8	¥1,096	¥527,752
千问3-Rerank	qwen3-rerank	MU5 x 1	¥21	¥10,139
千问2.5-72B	qwen2.5-72b-instruct	MU1 x 4	¥216	¥104,472
千问2.5-32B	qwen2.5-32b-instruct	MU1 x 4	¥216	¥104,472
千问2.5-14B	qwen2.5-14b-instruct	MU1 x 2	¥108	¥52,236
千问2.5-7B	qwen2.5-7b-instruct	MU1 x 2	¥108	¥52,236
		MU5 x 1	¥21	¥10,139
千问2.5-3B	qwen2.5-3b-instruct	MU5 x 1	¥21	¥10,139
千问-Flash	qwen-flash-2025-07-28	MU1 x 4	¥216	¥104,472
千问-Plus	qwen-plus-2025-07-28	MU1 x 4 / MU1 x 16（PD分离）	¥216 / PD分离¥864	¥104,472 / PD分离¥417,888
千问-Plus	qwen-plus-2025-12-01	MU1 x 4	¥216	¥104,472

GLM系列

模型名称	模型代码	模型单元规格	小时单价（元）	包月单价（元）
GLM-5	glm-5	MU3 x 16（PD分离）	PD分离¥2,192	PD分离¥1,055,504
GLM-4.7	glm-4.7	MU6 x 32（PD分离）	PD分离¥800	PD分离¥386,848

DeepSeek系列

模型名称	模型代码	模型单元规格	小时单价（元）	包月单价（元）
DeepSeek-v4-Flash	deepseek-v4-flash	MU1 x 8	¥432	¥208,944
DeepSeek-v3.2	deepseek-v3.2	MU2 x 16（PD分离）	PD分离¥1,008	PD分离¥480,576

更多模型

模型名称	模型代码	模型单元规格	小时单价（元）	包月单价（元）
MiniMax-M2.5	MiniMax-M2.5	MU1 x 16（PD分离）	PD分离¥864	PD分离¥417,888
Kimi-K2.5	kimi-k2.5	MU2 x 8	¥504	¥240,288

模型类型说明：

Instruct — 部署后以非思考模式进行推理。
Thinking — 部署后以思考模式进行推理。

PD分离模式说明：将首Token计算（Prefill）与后续Token计算（Decode）分配至不同节点执行，以降低首Token延迟并提升吞吐。

多模态——千问VL

模型名称	模型代码	模型单元规格	小时单价（元）	包月单价（元）
千问3-VL-235B-A22B-Instruct	qwen3-vl-235b-a22b-instruct	MU1 x 4	¥216	¥104,472
千问3-VL-235B-A22B-Thinking	qwen3-vl-235b-a22b-thinking	MU1 x 4	¥216	¥104,472
千问3-VL-32B-Instruct	qwen3-vl-32b-instruct	MU2 x 8	¥504	¥240,288
千问3-VL-8B-Instruct	qwen3-vl-8b-instruct	MU1 x 2	¥108	¥52,236
千问3-VL-4B-Instruct	qwen3-vl-4b-instruct	MU1 x 2	¥108	¥52,236
千问3-VL-2B-Instruct	qwen3-vl-2b-instruct	MU5 x 1	¥21	¥10,139
千问3-VL-Embedding	qwen3-vl-embedding-2b	MU5 x 1	¥21	¥10,139
千问3-VL-Flash	qwen3-vl-flash-2025-10-15	MU1 x 4	¥216	¥104,472
千问3-VL-Plus	qwen3-vl-plus-2025-09-23	MU1 x 4	¥216	¥104,472
千问VL-Max	qwen-vl-max-2025-08-13	MU6 x 4	¥100	¥48,356
千问VL-OCR	qwen-vl-ocr-2025-11-20	MU6 x 4	¥100	¥48,356

千问 Omni

模型名称	模型代码	模型单元规格	小时单价（元）	包月单价（元）
千问3.5-Omni-Flash	qwen3.5-omni-flash	MU8 x 1	¥47	¥22,400
		MU9 x 1	¥51	¥24,600
千问3.5-Omni-Plus	qwen3.5-omni-plus	MU9 x 8	¥408	¥196,800

语音合成——CosyVoice

模型名称	模型代码	模型单元规格	小时单价（元）	包月单价（元）
cosyvoice-v3-flash	cosyvoice-v3-flash	MU5	¥21	¥10,139

3. Token用量计费

费用 = 输入Token数 × 输入单价 + 输出Token数 × 输出单价（最小计费单位：1 token）

仅当对基础模型完成SFT高效训练并获得自定义模型后，方可采用此计费方式。

千问

基础模型	模型代码	输入（元/千Token）	输出（元/千Token）
千问3-32B	qwen3-32b	¥0.002	非思考¥0.008 / 思考¥0.02
千问3-14B	qwen3-14b	¥0.001	非思考¥0.004 / 思考¥0.01
千问3-8B	qwen3-8b	¥0.0005	非思考¥0.002 / 思考¥0.005
千问2.5-72B	qwen2.5-72b-instruct	¥0.004	¥0.012
千问2.5-32B	qwen2.5-32b-instruct	¥0.002	¥0.006
千问2.5-14B	qwen2.5-14b-instruct	¥0.001	¥0.003
千问2.5-7B	qwen2.5-7b-instruct	¥0.0005	¥0.001

千问VL

基础模型	模型代码	输入（元/千Token）	输出（元/千Token）
千问3-VL-8B-Instruct	qwen3-vl-8b-instruct	¥0.0005	¥0.002
千问2.5-VL-72B	qwen2.5-vl-72b-instruct	¥0.016	¥0.048
千问2.5-VL-32B	qwen2.5-vl-32b-instruct	¥0.008	¥0.024
千问2.5-VL-7B	qwen2.5-vl-7b-instruct	¥0.002	¥0.005

三、部署方法

操作步骤如下：

前往模型部署控制台（北京）。
选择模型及计费方式，其余设置保持默认，设置模型名称后开始部署。

须先完成模型调优，方可部署大部分模型。

部署状态显示为运行中，即表示部署成功。

模型部署成功后将开始产生费用。

3.1 部署配置说明

配置项	说明
推理模式	部分模型支持配置：Instruct（非思考）/ Thinking（思考）
最长上下文	部分模型支持，长度依据模型类型确定
服务限流	部分模型支持，可限制RPM、TPM

四、部署后调用

模型部署成功后，支持通过 OpenAI兼容接口、DashScope 及 Assistant SDK 进行调用。

调用时，model 参数应填写部署成功后的模型 code，该信息可在控制台获取。

模型特性（如是否支持非流式输出、结构化输出等）与调优前保持一致。若调优数据包含深度思考内容，调用时建议开启 enable_thinking；若不包含，则不建议开启。

DashScope 调用示例

import os
import dashscope

messages = [
    {
   "role": "system", "content": "You are a helpful assistant."},
    {
   "role": "user", "content": "你是谁？"},
]
response = dashscope.Generation.call(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    model="qwen3-14b-xxx-xxx",  # 替换为部署后的code
    messages=messages,
    result_format="message",
    enable_thinking=False,
)
print(response)

OpenAI 兼容接口调用示例

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3-14b-xxx-xxx",  # 替换为部署后的code
    messages=[
        {
   "role": "system", "content": "You are a helpful assistant."},
        {
   "role": "user", "content": "你是谁？"},
    ],
    extra_body={
   "enable_thinking": False},
)
print(completion)

五、扩缩容方式

计费方式	扩缩容操作
预置吞吐（按时长）	点击扩缩容按钮，自助调节实例数量
模型单元（按时长）	点击扩缩容按钮，自助调节实例数量
Token用量	点击扩容按钮，提交申请表单，等待人工审核

六、部署服务下线

前往模型部署控制台（北京） → 找到需下线的服务 → 点击下线并确认。

下线后不再产生计费。

七、常见问题

Q1：是否支持上传和部署自有模型？

支持在我的模型控制台（北京）导入部分开源模型。
此外，阿里云人工智能平台 PAI 提供了部署自有模型的功能。

Q2：部署时提示权限不足应如何处理？

情形一：缺少模块权限

请确认账号在该业务空间的权限管理页面已具备「模型部署-操作」权限。

情形二：业务空间无部署权限

报错示例：Workspace xxx does not have deployment privilege for model xxxx

请前往百炼业务空间管理页面，为对应空间添加模型部署权限。

若仍无法解决，请联系组织管理员或IT管理员处理。

Q3：如何切换计费方式？

须先释放原有资源，再以新计费方式创建。建议按以下步骤操作：

以新计费方式部署新资源。
切换API并测试可用性。
下线并释放原有资源。

2026年阿里云AI产品与云产品优惠权益参考
AI 产品权益主要包括阿里云百炼 Token Plan，提供多档位套餐，包月预算可控；HappyHorse-1.0 系列模型限时 8 折；阿里云百炼 Token Plan，提供多档位套餐，包月预算可控；Qwen3.6全模型通享 4.5 折；Qwen3.7-Max 发布限时 5 折；阿里云百炼优惠券，先用后返，最高200元，个企同享；阿里云 JVS Claw 39元起，一键接入 OpenClaw等。而云产品权益主要有轻量应用服务器限时抢购2核2G38元/年、2核4G9.9元1个月、199元/年；通用算力型u2i实例3折，九代c9i、g9i、r9i等实例1年付6.4折起等优惠权益。详情可通过阿里云权益中心了解：https://www.aliyun.com/benefit

AI产品权益2026.png

小结：阿里云百炼大模型服务平台为用户提供了预置吞吐（PTU）、模型单元、Token用量三种灵活的部署计费方式，覆盖从高并发生产场景到调优验证的多元需求，并支持OpenAI兼容接口、DashScope及Assistant SDK等多种调用方式，配套完善的扩缩容与下线机制，降低了大模型落地的技术门槛。

阿里云百炼大模型服务平台模型部署指南：流程与常见问题