阿里云百炼怎么样?百炼大模型服务平台优势、已接入模型及收费标准参考

简介: 阿里云百炼是一站式大模型开发与应用平台,集成通义千问及DeepSeek等主流大模型,提供从模型调优、部署到应用构建的全链路服务。平台支持SFT、CPT、DPO等多种调优方式,提供按时长、包月、按Token等灵活计费模式,适配Android、iOS、Linux等多系统。Agent工具支持零代码智能体构建、可视化工作流编排及Python SDK深度定制,应用广场预置100+行业模板。2026年新用户开通即享超7000万免费tokens,有效期90天,覆盖百余款模型,助力企业与开发者零成本快速实现AI应用落地。

阿里云百炼是一站式大模型开发与应用平台,集成通义千问及第三方主流大模型(如MiniMax-M2.7、DeepSeek等),提供从模型调优、部署到应用构建的全链路服务。平台支持兼容OpenAI的API接口,开发者可通过简单代码调用模型能力,同时提供可视化工具(如智能体、工作流)帮助业务人员快速构建AI应用,如知识问答、任务规划等。阿里云百炼凭借可靠模型服务、灵活工具链、全链路安全机制及完善生态,为企业与开发者提供从模型调用到商业化落地的完整解决方案。无论是快速构建原型还是部署大规模AI应用,均可通过其标准化工具与开放生态实现高效落地。

2026阿里云百炼产品.png

一、阿里云百炼大模型服务平台优势详解

1.1 模型服务更可靠

  • 全链路调优与部署:
    支持有监督微调(SFT)、继续预训练(CPT)、直接偏好优化(DPO)等调优方法,满足特定业务需求;部署时可选择资源专享的推理服务,提供按时长、包月、按Token量计费等灵活模式,保障高并发与低延迟场景的稳定性。
  • 硬件与系统适配:
    通过标准化SDK/API适配Android、iOS、Linux等系统,支持RTOS等嵌入式场景,缩短开发周期。
  • 多模型选择与兼容性:
    预置通义千问系列、MiniMax、DeepSeek等模型,并支持替换第三方模型,满足不同场景需求。

1.2 Agent工具更灵活

  • 零代码快速构建:
    提供智能体(Agent)应用,通过自然语言配置实现任务自主决策(如客服、知识问答);工作流(Workflow)应用支持可视化节点编排,适配固定流程自动化(如报告生成、审批流);高代码应用面向开发者,提供Python SDK深度定制。
  • 丰富模板与扩展性:
    百炼应用广场提供100+模板(如RAG、MCP插件),支持一键复制与二次开发;兼容第三方通信协议,可接入自定义Agent或插件。
  • 多模态与实时交互:
    支持音视频实时对话(如客服场景),并通过H5/SDK集成至终端设备;联网搜索功能可调用实时数据(如股票、新闻)。

1.3 全链路安全更可信

  • 数据与权限控制:
    通过角色分离、细粒度权限管理保障数据安全,支持敏感信息脱敏与审计。
  • 模型输出可控性:
    提供人工、自动、基线评测体系,检测模型风险;通过参数配置(如强制检索、智能改写)确保输出符合业务规范。
  • 合规与隐私保护:
    遵循数据安全法与个人信息保护法,支持知识库范围限制(如指定优先检索源)。

1.4 商业生态化更完善

  • 多场景商业化支持:
    提供Token Plan(订阅服务)、Coding Plan(开发套餐)等商业计划,适配企业级需求;支持与支付宝等第三方平台集成,实现能力变现(如Agent打赏功能)。
  • 行业解决方案:
    针对教育、金融、汽车等场景提供预置模板(如工业语音指令转写、销售服务质检)。
  • 开放生态与社区:
    通过Agent Store共享优质应用,开发者可贡献或复用模板;开源示例代码(如GitHub)降低接入门槛。

二、阿里云百炼大模型服务新人免费额度介绍

2026年面向所有阿里云用户,提供百余款千问系列大模型和国内优质开源三方大模型,新用户开通即享超7000万免费tokens。该活动属于阿里云“AI产品免费试用”计划的一部分,旨在帮助新用户零成本体验大模型能力,快速构建AI应用。 AI产品免费试用活动详情:https://free.aliyun.com/product/ai

阿里云AI产品免费试用.png

1、活动内容

  • 免费额度总量:新用户在开通阿里云百炼后,可获得总计超过7000万 tokens 的免费推理额度,用于调用百炼平台上架的大模型(包括通义千问系列及第三方模型)。
  • 覆盖模型范围:免费额度适用于百炼平台提供的百余款通义系列大模型及国内优质开源第三方大模型。
  • 典型模型示例:
    • Qwen-Max:提供100万免费tokens;
    • Qwen-Plus:提供1200万tokens的资源包体验(部分通过资源包形式发放);
    • 其他如Qwen3、Qwen3-Coder、通义万相(图像/视频生成)等也包含在免费体验范围内。

详情可通过阿里云百炼大模型服务平台进入:https://www.aliyun.com/product/bailian

大模型服务.png

2、活动规则

  1. 参与条件:

    • 用户需注册阿里云账号并完成实名认证;
    • 首次开通阿里云百炼服务(以中国内地版为准)。
  2. 免费额度有效期:

    • 自2025年9月8日11点起,新开通用户获赠的免费额度有效期统一为90天;
    • 此前已开通的用户仍按原规则(30~90天)执行。
  3. 使用范围限制:

    • 免费额度仅可用于模型的实时推理调用;
    • 不支持抵扣以下场景:
      • Batch批量调用;
      • 上下文缓存;
      • 模型调优(SFT/CPT等);
      • 模型部署;
      • 自定义模型(包括调优后或已部署的模型)。
  4. 额度共享机制:

    • 阿里云主账号与其RAM子账号共享免费额度。例如,若Qwen-Max总免费额度为100万tokens,主账号与子账号共同消耗,总额不超过该上限。
  5. 额度查看方式:

    • 可通过百炼控制台的“模型用量”页面 → “免费额度”页签查看;
    • 或在“模型广场”中选择具体模型版本,在详情页查看剩余额度(数据分钟级更新,需手动刷新)。
  6. 超额计费:

    • 免费额度耗尽或到期后,继续调用模型将按标准价格计费。

三、阿里云百炼已接入的模型有哪些?

阿里云百炼提供千问及第三方模型服务,覆盖文本、图像、音频、视频等多种模态。目前已经接入100多种模型,具体如下:

模型广场图.png

  • Qwen3.6-Plus
    Qwen3.6原生视觉语言系列Plus模型,展现出与当前顶尖前沿模型相媲美的卓越性能,模型效果相较3.5系列显著提升。模型在Agentic coding、前端编程、Vibe coding等代码能力、多模态万物识别、OCR、物体定位等能力上显著增强。
  • Qwen3.6-Max
    Qwen3.6原生Max模型,相较于此前发布的Qwen3-Max和Qwen3.6-Plus,本模型在vibe coding能力上进一步提升、coding agent执行更加高效、前端编程开发能力显著提升;长尾知识能力进一步升级。
  • Qwen3.6-Flash
    Qwen3.6原生视觉语言系列Flash模型,模型效果相较3.5-Flash显著提升。本模型重点提升agentic coding能力(在多项代码智能体基准上大幅超越前代)、数学推理和代码推理能力;视觉方面在空间智能能力上显著增强,物体定位与目标检测提升尤为突出。
  • Qwen3.6开源模型
    Qwen3.6系列开源模型,基于混合架构设计的原生视觉语言模型,模型效果相较于3.5系列同尺寸有大幅提升。
  • DeepSeek
    DeepSeek是由深度求索提供的开源模型,包含 V3.1、V3、R1以及基于Qwen2.5系列蒸馏的大语言模型。
  • Qwen3.5-Plus
    Qwen3.5原生视觉语言系列Plus模型,展现出与当前顶尖前沿模型相媲美的卓越性能,模型效果在纯文本与多模态方面相较3系列均实现飞跃式进步。
  • Qwen3.5-Flash
    Qwen3.5原生视觉语言系列Flash模型,展现出与当前顶尖前沿模型相媲美的卓越性能,模型效果在纯文本与多模态方面相较3系列均实现飞跃式进步。
  • HappyHorse-I2V
    HappyHorse系列最新图生视频模型,具备高度还原的动态画面生成能力,能够稳定保持与图像一致性,输出流畅自然、细节丰富的高质量视频。

  • HappyHorse-T2V
    HappyHorse系列最新文生视频模型,具备高度还原的动态画面生成能力,能够精准理解文本语义,输出流畅自然、细节丰富的高质量视频。

  • HappyHorse-R2V
    HappyHorse-R2V支持参考生视频,更加稳定的主体与场景参考,支持最多9张图片参考,能够精准保持创作意图,实现更强表现能力。
  • HappyHorse-Video-Edit
    HappyHorse-Video-Edit支持视频编辑,自然语言指令编辑视频,可参考最多5张图片局部或全局编辑视频元素,能够精准复刻视频动态过程,实现更强表现能力。
  • Qwen3.5开源模型
    Qwen3.5系列开源模型,基于混合架构设计的原生视觉语言模型,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。
  • Qwen3-Max
    千问3系列Max模型,相较preview版本在智能体编程与工具调用方向进行了专项升级。本次发布的正式版模型达到领域SOTA水平,适配场景更加复杂的智能体需求。
  • Qwen-Image-2.0
    Qwen-Image-2.0系列加速版模型,实现了图片生成和图片编辑的融合;具备更专业的文字渲染1k token指令支持能力、更细腻的真实质感,细腻刻画写实场景、更强的语义遵循能力。加速版有效实现了模型效果和性能的最佳平衡。
  • Qwen-Image-2.0-Pro
    Qwen-Image-2.0系列满血版模型,实现了图片生成和图片编辑的融合;具备更专业的文字渲染1k token指令支持能力、更细腻的真实质感,细腻刻画写实场景、更强的语义遵循能力。满血版具备2.0系列最强的文字渲染能力和真实质感。
  • Qwen3.5-Omni-Flash-Realtime
    Qwen3.5-Omni是Qwen最新一代全模态大模型,支持文本,图片,音频,音视频理解与交互。作为 Qwen3-Omni 的全面进化版本,支持60+种语言音频输入,30+语言语音输出以及可控语音对话,WebSearch和复杂FunctionCall的调用,并且具备智能语义打断的交互能力,广泛应用于文本创作、语音助手、多媒体分析等场景,提供自然流畅的多模态交互体验。
  • Qwen3.5-Omni-Flash
    Qwen3.5-Omni是Qwen最新一代全模态大模型,支持文本,图片,音频,音视频理解与交互。作为 Qwen3-Omni 的全面进化版本, 支持超过 10 小时的音频理解及超过 400 秒的 720P(1 FPS)音视频理解与对话,并进一步拓展语言范围,支持60+种语言音频输入,30+语言语音输出,并且具备强大的结构化音视频理解能力,广泛应用于文本创作、语音助手、多媒体分析等场景,提供自然流畅的多模态理解与交互体验。
  • Qwen3.5-Omni-Plus
    Qwen3.5-Omni是Qwen最新一代全模态大模型,支持文本,图片,音频,音视频理解与交互。作为 Qwen3-Omni 的全面进化版本, 支持超过 10 小时的音频理解及超过 400 秒的 720P(1 FPS)音视频理解与对话,并进一步拓展语言范围,支持60+种语言音频输入,30+语言语音输出,并且具备强大的结构化音视频理解能力,广泛应用于文本创作、语音助手、多媒体分析等场景,提供自然流畅的多模态理解与交互体验。
  • Qwen-Image-Max
    千问图像生成模型Max系列,在各类生成任务中表现出色,相较Plus系列大幅度降低生成图片的AI感,提升图像真实性;具备更真实的人物质感、更细腻的自然纹理、更美观的文字渲染。
  • Qwen-Image-Plus
    千问系列图像生成模型,参数规模200亿。具备卓越的文本渲染能力,在复杂文本渲染、各类生成与编辑任务重表现出色,在多个公开基准测试中获得SOTA,模型性能大幅提升。
  • Qwen-Image-Edit-Max
    千问图像编辑模型Max系列,提供更稳定、更丰富的编辑能力:提升工业设计与几何推理能力;提升角色一致性;减轻偏移问题;集成Lora能力,可以进行更多功能的图像编辑。此版本为2026年1月16日快照。
  • Qwen-Image-Edit-Plus
    千问系列图像编辑Plus模型,在首版Edit模型基础上进一步优化了推理性能与系统稳定性,大幅缩短图像生成与编辑的响应时间;支持单次请求返回多张图片,显著提升用户体验。
  • Z-Image-Turbo
    Z-Image-Turbo是在Artificial Analysis评测中荣登文生图开源模型世界第一的高效图像生成模型,仅用60亿参数和8步推理就能生成媲美大规模商业模型的照片级真实感图像,并在中英双语文本渲染、复杂语义理解和多样化主题生成上表现卓越。
  • Qwen3-VL-Plus
    Qwen3系列视觉理解模型,实现思考模式和非思考模式的有效融合,视觉智能体能力在OS World等公开测试集上达到世界顶尖水平。此版本在视觉coding、空间感知、多模态思考等方向全面升级;视觉感知与识别能力大幅提升,支持超长视频理解。
  • Qwen3-VL-Flash
    Qwen3系列小尺寸视觉理解模型,实现思考模式和非思考模式的有效融合,效果优于开源版Qwen3-VL-30B-A3B,响应速度快。全面升级图像/视频理解,支持长视频长文档等超长上下文、空间感知与万物识别;具备视觉2D/3D定位能力,胜任复杂现实任务。
  • Wan-I2V
    图片生成视频内容,稳定保持图像主体、风格和文字等细节信息
  • Wan-R2V
    参考视频中的人或物,精准保持形象和声音,支持多参考合拍
  • Wan-T2V
    文字生成视频内容,丝滑动态能力,电影美学控制,精准指令遵循

  • Wan-VideoEdit
    通过指令对视频进行编辑,支持局部/整体编辑、视频重塑、视频复刻等

  • Wan-T2I
    文字生成图片,写实质感细腻画面,文字内容生成,艺术风格表现

  • Wan-Image
    指令编辑图片内容,轻松实现局部修改、风格变化、一致性保持等

  • qwen3-tts-instruct-flash-realtime
    通义千问3-TTS-Flash模型是通义最新推出的实时语音合成大模型,Instruct模型可通过自然语言进行合成效果的处理,确保在不同语境下,合成情感、表达高度贴合的语音。目前支持25个音色的中英文Instruct调节。该模型等同于2026年01月22日快照版本模型。
  • Qwen3-Omni-Flash-Realtime
    Qwen3-Omni-Flash-Realtime多模态大模型的实时版,基于Thinker–Talker混合专家(MoE)架构,支持文本、图像、音频、视频的高效理解与语音生成能力,可进行119种语言文本交互和20种语言语音交互,生成类人语音实现跨语言精准沟通。模型具备强大指令跟随与系统提示定制功能,灵活适配对话风格与角色设定,广泛应用于文本创作、语音助手、多媒体分析等场景,提供自然流畅的多模态交互体验。
  • Qwen3-Omni-Flash
    Qwen3-Omni-Flash多模态大模型,基于Thinker–Talker混合专家(MoE)架构,支持文本、图像、音频、视频的高效理解与语音生成能力,可进行119种语言文本交互和20种语言语音交互,生成类人语音实现跨语言精准沟通。模型具备强大指令跟随与系统提示定制功能,灵活适配对话风格与角色设定,广泛应用于文本创作、语音助手、多媒体分析等场景,提供自然流畅的多模态交互体验。
  • Qwen3-TTS-Flash-Realtime
    Qwen3-TTS-Flash-Realtime模型是通义实验室最新的实时语音合成大模型,不仅拥有17种高表现力的拟人音色,且能低延迟高稳定地实时合成音频;同时支持多种语言,方言,支持同一音色多语言输出。该模型经过海量数据训练,合成音频可以根据文本自适应调节语气,对复杂文本合成也有较好的处理能力。
  • Qwen3-TTS-Flash
    Qwen3-TTS-Flash模型是通义实验室最新推出的离线语音合成大模型,不仅拥有17种高表现力的拟人音色,且能低延迟高稳定地合成音频;同时支持多种语言,方言,支持同一音色多语言输出。该模型经过海量数据训练,合成音频可以根据文本自适应调节语气,对复杂文本合成也有较好的处理能力。
  • Qwen3-Omni-30b-a3b-Captioner
    千问3-Omni-30b-a3b-Captioner是一款强大的音频细粒度分析模型,专为在复杂多变的音频场景中生成精准、全面的内容描述而设计,可自动解析并描述从复杂语音、环境声到音乐、影视声效等各类音频内容,能够在多声源、混合化的环境中亦保持稳定而可信的输出。
  • Qwen3开源模型
    Qwen3系列开源模型,包含混合模型、思考模型与非思考模型,思考能力与通用能力均达到同规模业界SOTA水平。

  • Qwen-Plus
    千问超大规模语言模型的增强版,支持中文英文等不同语言输入。主干模型、latest和快照04-28已升级Qwen3系列,实现思考模式和非思考模式的有效融合,可在对话中切换模式。

  • Qwen3-LiveTranslate-Flash
    Qwen3-LiveTranslate-Flash,一款高精度、高响应、高鲁棒性的多语言实时音视频同传大模型。依托Qwen3-Omni强大的基座能力、海量多模态数据、跨语言跨模态对齐和视觉增强等技术,Qwen3-LiveTranslate-Flash实现了离线和实时两种音视频翻译能力,能听懂19种语言,会说10种语言以及8种中文方言。
  • Qwen3-LiveTranslate-Flash-Realtime
    Qwen3-LiveTranslate-Flash-Realtime的实时版本,一款高精度、高响应、高鲁棒性的多语言实时音视频同传大模型。依托Qwen3-Omni强大的基座能力、海量多模态数据、跨语言跨模态对齐和视觉增强等技术,Qwen3-LiveTranslate-Flash 实现了离线和实时两种音视频翻译能力,能听懂19种语言,会说10种语言以及8种中文方言。
  • Qwen-Flash
    Qwen3系列Flash模型,实现思考模式和非思考模式的有效融合,可在对话中切换模式。复杂推理类任务性能优秀,指令遵循、文本理解等能力显著提高。支持1M上下文长度,按照上下文长度进行阶梯计费。

  • Qwen-Max
    千问2.5系列千亿级别超大规模语言模型,支持中文、英文等不同语言输入。随着模型的升级,qwen-max将滚动更新升级。如果希望使用固定版本,请使用历史快照版本。

  • Qwen3-Coder-Plus
    基于Qwen3的代码生成模型,具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程、代码能力卓越的同时兼具通用能力。

  • Qwen3-Coder-Flash
    基于Qwen3的代码生成模型,继承Qwen3-Coder-Plus的coding agent能力,支持多轮工具交互,重点优化仓库级别理解能力并增加工具调用稳定性。
  • Qwen-VL-Max
    Qwen-VL-Max,即千问超大规模视觉语言模型。相比增强版,再次提升视觉推理能力和指令遵循能力,提供更高的视觉感知和认知水平。在更多复杂任务上提供最佳的性能。
  • Qwen-VL-Plus
    Qwen-VL-Plus,即千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。
  • Qwen3-ASR-Flash-Filetrans
    Qwen3-ASR-Flash的大文件转录版本,Qwen3-ASR-Flash是一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。依托强大的基座模型、海量的文本与多模态数据、千万小时音频数据,Qwen3-ASR-Flash实现了高精度的语音识别功能,能够自动判断语种并准确识别多个语种的语音,在复杂的音频环境下能够保证精确转录。
  • Qwen3-ASR-Flash-Realtime
    Qwen3-ASR-Flash的实时版,一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。依托强大的基座模型、海量的文本与多模态数据、千万小时音频数据,Qwen3-ASR-Flash实现了高精度的语音识别功能,能够自动判断语种并准确识别多个语种的语音,在复杂的音频环境下能够保证精确转录。
  • Qwen3-ASR-Flash
    Qwen3-ASR-Flash是一款基于大语言模型的高精度、高智能、高鲁棒性的多语种语音识别模型。依托强大的基座模型、海量的文本与多模态数据、千万小时音频数据,Qwen3-ASR-Flash实现了高精度的语音识别功能,能够自动判断语种并准确识别多个语种的语音,在复杂的音频环境下能够保证精确转录。
  • Qwen-TTS
    千问系列首个语音合成模型,支持中文、英文、中英混合输入。自适应根据输入文本调整输出语气,音色真实自然,支持输入输出全流式。
  • qwen-deep-research
    千问深入研究是一款面向复杂研究任务的高级智能体系统,具备多轮推理与全局规划能力,能够运用互联网搜索等多种工具,对任务进行精细化拆解,开展推理与分析,最终为用户生成可溯源、逻辑严谨的研究型报告。

  • Qwen-声音复刻
    千问voice-enrollment模型是千问语音模型的声音复刻系列模型,仅需5s以上的音频,即可迅速复刻高相似度声音。结合qwen3-tts-vc-realtime模型使用,可将一个人的声音高保真复刻,输出11个语种的语音。且合成音频可以根据文本自适应调节语气,对复杂文本合成也有较好的处理能力。

  • Qwen3-TTS-VC-Realtime
    Qwen3-TTS-VC-Realtime模型是通义实验室最新推出的实时语音合成大模型,可对qwen3-voice-enrollment服务复刻的声音进行高保真实时语音合成,且同一音色支持11个语种的语音输出。该模型经过海量数据训练,合成音频可以根据文本自适应调节语气,对复杂文本合成也有较好的处理能力。
  • Qwen-TTS-Realtime
    Qwen-TTS实时模型是通义实验室“qwen系列”模型中的语音合成利器。具备双向上下文感知能力,可以低延迟高保真完成多音色、方言及长文本的双向流式生成。
  • Qwen-声音设计
    Qwen-Voice-Design模型是千问语音模型的声音设计系列模型,仅需输入简单的文字描述,即可迅速设计出符合要求的相关声音。结合qwen3-tts-vd-realtime模型使用,可设计输出11个语种的语音。且合成音频可以根据文本自适应调节语气,对复杂文本合成也有较好的处理能力。
  • Qwen3-TTS-VD-Realtime
    Qwen3-TTS-VD模型是通义实验室最新推出的实时语音合成大模型,可对qwen3-voice-design服务设计的声音进行高保真实时语音合成,且同一音色支持11个语种的语音输出。该模型经过海量数据训练,合成音频可以根据文本自适应调节语气,对复杂文本合成也有较好的处理能力。该模型为2025年12月16日快照版本模型。
  • Qwen-Omni-Turbo
    千问全新多模态理解生成大模型,支持文本, 图像,语音,视频输入理解和混合输入理解,具备文本和语音同时流式生成能力,多模态内容理解速度显著提升,提供了4种自然对话音色。
  • Qwen-Omni-Turbo-Realtime
    千问全新多模态理解生成大模型实时版,适合实时音频交互场景。支持音频伴随文本、图像、视频混合输入理解,具备语音和文本同时流式生成能力,提供了4种自然对话音色。
  • Qwen-MT-Image
    专注做图片翻译的模型服务,能将中、英、日等11个语言的图片翻译到指定的语言,精准还原图片排版和内容信息,支持术语定义、敏感词过滤、商品主体检测等自定义功能,提供灵活、准确、高效的图像本地化服务。
  • Qwen-MT-Plus
    基于Qwen3全面升级的旗舰级翻译大模型,支持92个语种互译,模型性能和翻译效果全面升级,并提供更稳定的术语定制、格式还原度、领域提示能力,让译文更精准、自然。
  • Qwen-MT-Flash
    基于Qwen3全面升级的轻量级文本翻译大模型,支持92个语种互译,模型性能和翻译效果全面升级,并提供更稳定的术语定制、格式还原度、领域提示能力,让译文更精准、自然。
  • Qwen-MT-Turbo
    基于Qwen3全面升级的轻量级文本翻译大模型,支持92个语种互译,模型性能和翻译效果全面升级,提供更稳定的术语定制、格式还原度、领域提示能力,让译文更精准、自然。
  • Qwen-QwQ-Plus
    千问QwQ推理模型增强版,基于Qwen2.5模型训练的QwQ推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、livecodebench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平。
  • QVQ-Max
    千问QVQ视觉推理模型,支持视觉输入及思维链输出,在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。
  • Qwen-QVQ-Plus
    千问QVQ视觉推理模型增强版,支持视觉输入及思维链输出,在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。
  • Qwen3-Coder-480B-A35B-Instruct
    基于Qwen3的代码生成模型,具有强大的Coding Agent能力,代码能力达到开源模型 SOTA。
  • Qwen3-Coder-30B-A3B-Instruct
    qwen3-coder-30b-a3b-instruct
    基于Qwen3的代码生成模型,继承Qwen3-Coder-480B-A35B-Instruct的coding agent能力,代码能力达到同尺寸规模模型SOTA。
  • GLM
    GLM是由智谱提供的开源模型。
  • Kimi
    Kimi是由月之暗面提供的开源模型,包含k2.5、k2-thinking、k2-instruct等多模态和大语言模型。
  • Qwen2.5-开源模型
    Qwen2.5系列开源模型,包含文本生成模型、视觉理解模型、多模态模型等多个领域领先模型。
  • Qwen-Turbo
    qwen-turbo-latest
    千问超大规模语言模型,支持中文英文等不同语言输入。主干模型、latest和快照04-28已升级Qwen3系列,实现思考模式和非思考模式的有效融合,可在对话中切换模式。
  • Fun-ASR实时语音识别
    通义实验室新一代端到端语音识别大模型的实时版,基于领先的自研语音技术,具备卓越的上下文感知和高精度语音转写能力。基于端到端架构,Fun-ASR 集成了创新的 RAG 技术,支持大规模热词自定义、敏感/语气词自动过滤、ITN 规范化、标点预测等多维功能,显著提升了整体识别准确率和语境贴合度。同时,Fun-ASR 支持中英文自由切换,多地区方言覆盖,具备更强的噪声鲁棒性,适应多样复杂环境。
  • Fun-ASR语音识别
    通义百聆新一代语音识别大模型,主打中文、英文、日文语音识别,多地区方言覆盖,具备更强的噪声鲁棒性,适应多样复杂环境,国内用户首推。
  • 通义多模态向量
    基于LLM底座的通用多模态表征模型,支持文本、图像、视频3种模态,具有以视觉为中心、全场景性能优异、高性价比的特点,适用于以图搜图、以文搜图、以文搜视频、以视频搜视频、以文搜文等下游多样化任务场景。
  • CosyVoice大模型
    基于新一代生成式语音大模型,CosyVoice将文本理解和语音生成技术深度融合,能够精准解析并诠释各种文本内容,将其转化为如同真人发声般的自然语音,带来高度拟人化的自然语音合成体验。
  • Tripo
    AI驱动的3D通用大模型Tripo,支持文本或图片输入,数秒内一键生成高质量3D模型。
  • PixVerse C1
    由爱诗科技提供的PixVerse C系列视频大模型API服务。
  • PixVerse V6
    由爱诗科技提供的PixVerse V系列视频大模型API服务。
  • PixVerse V5.6
    由爱诗科技提供的PixVerse V系列视频大模型API服务。
  • MiniMax-Speech系列语音模型
    由MiniMax提供的MiniMax-Speech系列语音模型API服务。
  • MiniMax文本模型
    由MiniMax提供的MiniMax-M系列文本模型API服务。
  • Qwen3-TTS-VC
    Qwen3-TTS-Flash模型是通义实验室最新推出的实时语音合成大模型,可对qwen-voice-enrollment服务复刻的声音进行高保真实时语音合成,且同一音色支持11个语种的语音输出。该模型经过海量数据训练,合成音频可以根据文本自适应调节语气,对复杂文本合成也有较好的处理能力。
  • Qwen3-TTS-VD
    Qwen3-TTS-VD模型是通义实验室最新推出的实时语音合成大模型,可对qwen3-voice-design服务设计的声音进行高保真实时语音合成,且同一音色支持11个语种的语音输出。该模型经过海量数据训练,合成音频可以根据文本自适应调节语气,对复杂文本合成也有较好的处理能力。
  • Qwen3-TTS-Instruct-Flash
    Qwen3-TTS-Flash模型是通义实验室最新推出的实时语音合成大模型,Instruct模型可通过自然语言进行合成效果的处理,确保在不同语境下,合成情感、表达高度贴合的语音。目前支持25个音色的中英文Instruct调节。
  • Kimi
    kimi/kimi-k2.6
    由月之暗面提供的Kimi系列模型的API服务。
  • Qwen-MT-Lite
    基于Qwen3全面升级的基础级文本翻译大模型,支持32个语种互译,模型性能和翻译效果全面升级,并提供更稳定的术语定制、格式还原度、领域提示能力,让译文更精准、自然。
  • AI试衣-Plus版
    aitryon-plus是一款效果出众的虚拟试衣图片生成模型,可基于服饰平拍图片以及人物正面全身照,输出服饰的人物试衣效果图片。 相较于aitryon模型,aitryon-plus模型在图片清晰度、服饰纹理细节和logo还原效果等方面均有提升,但生成耗时较长,适用于对时效性要求不高的场景。
  • AI试衣-基础版
    aitryon是一款性能出众的虚拟试衣图片生成模型,可基于服饰平拍图片以及人物正面全身照,输出服饰的人物试衣效果图片。aitryon模型可在较短时间内生成试衣图片,适用于对时效性要求较高的场景。
  • GUI-Plus
    GUI系列图形界面交互基础模型,针对手机端与电脑端图形界面理解与交互任务,性能优于开源版同类GUI模型。全面升级跨平台界面理解与多步任务规划,支持跨应用复杂任务;具备精细化动作执行与多角色多智能体协作能力,胜任真实复杂交互场景。

  • QVQ-72B-Preview
    QVQ-72B-Preview是由 Qwen 团队开发的一个实验性研究模型,专注于提升视觉推理能力。QVQ-72B-Preview模型在基准测试中取得了优异的表现,在 MMMU 上达到了70.3%,展示了 QVQ 在多学科理解和推理任务上的强大能力,MathVista 和 MathVision 的提升凸显了模型在数学推理任务上的进步。与 Qwen2-VL-72B 相比,QVQ 验证了思维链有助于模型提升视觉推理能力,尤其是需要深度思考和推理的数学领力。

  • QwQ-32B
    基于Qwen2.5-32B模型训练的QwQ推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、livecodebench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。
  • 通义晓蜜-对话分析-pro
    通义晓蜜-对话分析-pro是专注于高阶复杂分析,如针对具备复杂业务逻辑的复杂质检规则等分析需求的模型,支持自定义更细粒度的分析标准,具备更强的多轮上下文建模、深层语义理解与推理能力。
  • 通义晓蜜-对话分析-flash
    通义晓蜜-对话分析-flash是专注于日常任务,如对话信息抽取、场景分类等分析类需求的模型,自定义分析标准遵循与对话语义理解能力显著提升,适用于低时延的离线在线分析任务。
  • QwQ-32B-Preview
    QwQ模型是由 Qwen 团队开发的实验性研究模型,专注于增强 AI 推理能力。
  • Qwen-Rerank
    基于Qwen LLM底座训练的文本排序模型,对输入的Query和候选Docs进行相关性排序,支持100+语种和长文本输入,适用于文本检索、RAG等场景,效果对齐Qwen家族开源Rerank系列模型。

  • Qwen-VL-OCR
    Qwen-VL-OCR,即基于Qwen-VL训练的OCR识别大模型。通过统一模型的方式聚合多种图文识别、解析、处理类任务,提供强大的图文识别能力。

  • Qwen-Math-Plus
    Qwen-Math-Plus模型具有强大的数学解题能力,擅长处理中英文数学题,包括方程、计算、证明等方向。

  • Qwen-Math-Turbo
    Qwen-Math-Turbo模型是专门用于数学解题的语言模型,推理速度快,成本低。

  • Qwen-Coder-Turbo
    Qwen-Coder-Turbo模型是专门用于编程和代码生成的语言模型,推理速度快,成本低。
  • AI试衣OutfitAnyone-图片分割
    图片分割模型是AI试衣OutfitAnyone的辅助模型,可对模特图、服饰图进行分割,用于试衣图片的前后处理。
  • 意图分类模型
    意图识别和槽位填充是对话系统中的基础任务。本模型实现了一个基于 API的意图(intent)和槽位参数(slots)联合预测。在一次模型输出中,同时完成多个指令API的返回和槽位参数的填充。返回的结果为标准json格式。
  • Qwen-Long
    Qwen-Long是在通义实验室针对超长上下文处理场景的大语言模型,支持中文、英文等不同语言输入,支持最长1000万tokens(约1500万字或1.5万页文档)的超长上下文对话。配合同步上线的文档服务,可支持文本文件( TXT、DOCX、PDF、XLSX、EPUB、MOBI、MD、CSV)和图片文件(BMP、PNG、JPG/JPEG、GIF 以及PDF扫描件)的解析和对话。说明:通过HTTP直接提交请求,支持1M tokens长度,超过此长度建议通过文件方式提交。
  • Qwen-Doc-Turbo
    快速对文档进行精准信息抽取,打标分类,内容审核及摘要总结。
  • 表情包Emoji
    表情包emoji是一款人脸动效视频生成模型,可基于人脸图片和预设的人脸动态模板,生成人脸动效视频。

  • 表情包Emoji-detect
    表情包Emoji-Detect是辅助表情包Emoji生成的图像检测模型,用于检测图片中的人物形象是否符合视频生成要求。

  • Paraformer实时语音识别-8k-v2
    推荐使用 Paraformer最新实时语音识别模型,支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持8kHz电话客服等场景下的实时语音识别。 支持的语言包括:中文(含粤语等各种方言)、英文、日语、韩语。 注:paraformer-realtime-v2暂不支持热词。
  • Paraformer语音识别-8k-v1
    Paraformer语音识别提供的文件转写API,能够对常见的音频或音视频文件进行语音识别,并将结果返回给调用者。Paraformer中文语音识别模型,支持8kHz电话语音识别。
  • 一句话识别及翻译V1.0
    多语言语音转写及翻译的多模态大模型。本模型支持60秒以内的实时语音识别,适用于语音搜索、设备指令等场景。提供10个混合语种的高准确率识别服务,同时支持中英日韩互译,以其他6个语种翻译成中文或英文。
  • 舞动人像AnimateAnyone
    AnimateAnyone是一款视频生成模型,可基于人物图片和动作模板生成人物全身动作视频。
  • Qwen-Flash-Character
    千问系列多语言角色扮演模型,本模型是动态更新版本,模型更新会提前通知,适合拟人化的角色扮演,同时优化了限定人设指令遵循、话题推进、倾听共情等能力,支持个性化角色的深度还原。

  • 大模型声音复刻及声音设计
    大模型声音复刻服务依托先进的大模型技术进行特征提取,无需训练过程就可以完成声音的复刻。仅需提供极短的音频,即可迅速生成高度相似且听感自然的定制声音。 大模型声音设计使用FunAudioGen-VD模型,支持通过文本Prompt描述,创造声音。无需受限任何音频质量,根据目标场景对音色、语气、语调、语速、情绪等各方面表现力的需求描述,即可生成高质量语音。高度还原专业配音演员的演出水准。

  • 语音识别热词
    热词是指用户可以预先定义的一组特定词汇或短语,这些词汇或短语在识别、翻译过程中会被赋予更高的优先级。针对您的特定业务领域,如果有部分词汇的语音识别、翻译效果不够好,可以将这些关键词或短语添加为热词进行优先识别或翻译,从而提升识别、翻译效果。
  • Qwen-Plus-Character
    千问系列角色扮演模型,本模型是动态更新版本,模型更新会提前通知,适合拟人化的角色扮演,同时优化了限定人设指令遵循、话题推进、倾听共情等能力,支持个性化角色的深度还原。
  • 舞动人像AnimateAnyone-template
    AnimateAnyone-Template是辅助AnimateAnyone的动作模板生成模型,可基于视频提取人物动作并制作模板。
  • 舞动人像AnimateAnyone-detect
    AnimateAnyone-detect是辅助AnimateAnyone的图像检测模型,用于检测图片中的人物形象是否符合视频生成要求。
  • 声动人像VideoRetalk
    VideoRetalk是一个人物视频生成模型,可基于人物视频和人声音频,生成人物讲话口型与输入音频相匹配的新视频。
  • 悦动人像EMO
    EMO是一款视频生成模型,可基于人物图片生成高质量的人物肖像动态视频。
  • 视频风格重绘
    视频风格重绘可以将输入的视频帧序列进行多种风格化的重绘/生成,使新视频画面在兼顾原始人物和物体相貌的同时,带来不同风格的绘画效果。当前支持预置重绘风格包括日式漫画、美式漫画、清新漫画、3D卡通、国风卡通。
  • 悦动人像EMO-detect
    EMO-Detect是辅助EMO的图像检测模型,用于检测图片中的人物形象是否符合视频生成要求。
  • 灵动人像LivePortrait
    LivePortrait是一款视频生成模型,可基于人物图片生成轻量化的人物肖像动态视频。
  • 灵动人像LivePortrait-detect
    LivePortrait-detect是辅助LivePortrait的图像检测模型,用于检测图片中的人物形象是否符合视频生成要求。
  • Wan2.1-VACE-Plus
    万相2.1-VACE-Plus,视频编辑统一模型。支持局部编辑、视频重绘、背景扩展、时长延展、图片参考等多种视频编辑与生成任务,支持文本、图像、视频等多模态条件控制。

  • 音乐生成
    百聆音乐生成大模型(Fun音乐大模型)支持输入开放性歌曲的创作要求或歌词,生成整首男/女声演唱的中文或英文歌曲。歌曲通俗易懂,情绪由浅入深,是人类灵感与大模型能力的完美结合。

  • Vanchin DeepSeek
    由快手万擎提供的DeepSeek系列模型API服务。
  • Vidu
    vidu/viduq3-mix_reference2video
    由生数科技提供Vidu系列视频生成API服务,电影级画质、一致性保持、精准可控。
  • 可灵AI
    由可灵AI提供的高质量视频与图像生成及编辑模型。
  • MiniMax
    MiniMax推出的旗舰级开源大模型,聚焦真实世界复杂任务,包含MiniMax-M2.1、MiniMax-M2.5等开源模型。
  • SiliconFlow DeepSeek
    由硅基流动提供的DeepSeek系列模型API服务。
  • Qwen-VL-Embedding
    基于Qwen-VL底座训练的统一多模态向量模型,支持文本、图片、视频单模态/混合模态输入,输出统一表征向量,适用于跨模态检索、图搜、视频检索、图像聚类、复杂多模态信息检索、打标等场景。
  • Qwen-Embedding
    基于Qwen模型基座训练的多语言文本统一向量模型,文本检索、聚类、分类性能大幅提升,多语言支持,适用于向量检索、向量化等等场景,可搭配检索增强、文档处理场景使用,支持64~2048维用户自定义向量维度。
  • Sambert语音合成
    提供高效的文字转语音服务。该技术具备推理速度快、合成效果卓越、读音精准、韵律自然、声音还原度高以及表现力强等优点。此外,用户可以选择开启字级别和音素级别的时间戳,用于生成字幕或驱动数字人的嘴型。
  • 实时语音识别及翻译V1.0
    多语言语音转写及翻译的多模态大模型。本模型提供长时间、高准确率、实时转写中/英/日/韩等10个混合语种的服务。同时支持中英日韩互译,以其他6个语种翻译成中文或英文。
  • Paraformer语音识别-8k-v2
    Paraformer最新中文语音识别模型,模型结构升级,具有更好的识别效果,支持8kHz电话语音识别,仅支持中文热词。
  • Qwen-Coder-Plus
    千问系列代码及编程模型是专门用于编程和代码生成的语言模型,性能出色,效果突出。
  • Paraformer语音识别-v2
    推荐使用 Paraformer最新语音识别模型,支持多个语种的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果,支持任意采样率。 支持的语言包括:中文(含粤语等各种方言)、英文、日语、韩语。可支持热词。
    语音识别
  • Paraformer实时语音识别-v2
    推荐使用 Paraformer最新实时语音识别模型,支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持任意采样率。 支持的语言包括:中文(含粤语等各种方言)、英文、日语、韩语。 可支持热词。
  • 图像擦除补全
    图像擦除补全通过指定图像mask中要删除的人体、宠物、物品、文字、水印等图像区域,在保留背景的同时移除图像中的一个或多个人物、物体、文字等元素,此功能不支持输入prompt的消除。擦除补全技术结合了计算机视觉、AIGC inpainting等先进技术,可以在多种场景下应用,从而满足用户对隐私保护、内容创作和图像编辑等方面需求。
  • 人物实例分割
    人物实例分割运用了检测和分割技术,不仅能够在图像中识别出不同的对象,而且还能准确地画出每一个对象边界的像素级掩码(mask)。
  • AI试衣OutfitAnyone-图片精修
    图片精修是对AI试衣生成的效果图进行二次生成,输出还原度更高的精修试衣效果图。
  • 虚拟模特
    虚拟模特可以对上传的真人或者人台实拍商品展示图进行智能生成,将其中的模特和背景替换为心仪的内容,在保持人物姿态不变的情况下,使用虚拟模特对商品进行更加精美、多样的展示。支持各种与模特产生互动的商品,如手持小商品、服装、鞋靴、配饰等。
    图片生成
    2024-06-25
  • 创意海报生成
    创意海报生成,您的创意海报魔法工厂!它能够根据你的要求自动生成海报的背景和文字排版,支持多种海报风格,从宣传到祝福,让每一张海报都成为你的个性宣言。无需设计基础,轻松制作出彩作品,让创意触手可及。
  • 鞋靴模特
    鞋靴模特支持输入多视角鞋靴系列图片,同时对输入模特模板图的鞋子区域进行鞋靴AI试穿,实现模特鞋靴布局重绘生成,最终生成图片的效果, 布局自然、细节丰富、画面细腻、试穿结果逼真。可用于模特商品图设计、新鞋AI试穿、模特穿戴布局重绘等场景。

  • 万相-涂鸦作画
    万相-涂鸦作画通过手绘任意内容加文字描述,即可生成精美的涂鸦绘画作品,作品中的内容在参考手绘线条的同时,兼顾创意性和趣味性。涂鸦作画支持扁平插画、油画、二次元、3D卡通和水彩5种风格,可用于创意娱乐、辅助设计、儿童教学等场景。

  • Paraformer实时语音识别-8k-v1
    Paraformer中文实时语音识别模型,支持8kHz电话客服等场景下的实时语音识别。
  • Paraformer实时语音识别-v1
    Paraformer中文实时语音识别模型,支持16kHz及以上采样率的视频直播、会议等实时场景下的语音识别。
  • 万相-图像局部重绘
    万相-图像局部重绘是基于自研的Composer组合生成框架的AI绘画创作大模型后置处理链路,能够根据用户输入的原始图片和意涂抹图中局部区域和prompt提示词文字内容,生成符合语义描述的多样化风格的局部重绘图像。通过知识重组与可变维度扩散模型,加速收敛并提升最终生成图片的效果, 布局自然、细节丰富、画面细腻、结果逼真。
  • 图像画面扩展
    图像画面大模型,对输入图像进行画面自由扩展,支持旋转画面,支持按照扩展系数和扩展像素数两种方式进行扩图。用户可以通过指定宽度、高度画面扩展比例或者左、右、上、下的扩展的像素值来控制画面扩展,可用于创意娱乐、辅助作图、画面设计、影视后期制作等场景。
  • 通义法睿-Plus-32K
    通义法睿是以通义千问为基座经法律行业数据和知识专门训练的法律行业大模型产品,综合运用了模型精调、强化学习、 RAG检索增强、法律Agent技术,具有回答法律问题、推理法律适用、推荐裁判类案、辅助案情分析、生成法律文书、检索法律知识、审查合同条款等功能

  • Paraformer语音识别-v1
    Paraformer中英文语音识别模型,支持16kHz及以上采样率的音频或视频语音识别。

  • Paraformer语音识别-mtl-v1
    Paraformer多语言语音识别模型,支持16kHz及以上采样率的音频或视频语音识别。 支持的语种/方言包括:中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语。
  • WordArt锦书-文字变形
    WordArt锦书-文字变形可以对输入的文字边缘轮廓进行创意变形,根据提示词内容进行边缘变化,实现一种字体的更多种创意用法,返回带有文字内容的黑底白色mask图。
  • WordArt锦书-文字纹理生成
    WordArt锦书-文字纹理生成可以对输入的文字内容或文字图片进行创意设计,根据提示词内容对文字添加材质和纹理,实现立体凸显或场景融合的效果,生成效果精美、风格多样的艺术字,结合背景可以直接作为文字海报使用。
  • FaceChain人物写真生成
    基于人物形象训练已经得到的形象,可以继续通过人物生成写真模型完成该形象的写真生成,支持多种预设风格,包括证件照、商务写真等。
  • FaceChain人物图像检测
    对用户上传的人物图像进行检测,判断其中所包含的人脸是否符合facechain微调所需的标准,检测维度包括人脸数量、大小、角度、光照、清晰度等多维度,支持图像组输入,并返回每张图像对应的检测结果。
  • 图像背景生成
    图像背景生成可以基于输入的前景图像素材拓展生成背景信息,实现自然的光影融合效果,与细腻的写实画面生成。支持文本描述、图像引导等多种方式,同时支持对生成的图像智能添加文字内容。
  • 人像风格重绘
    人像风格重绘可以将输入的人物图像进行多种风格化的重绘生成,使新生成的图像在兼顾原始人物相貌的同时,带来不同风格的绘画效果。

四、阿里云百炼大模型调用收费标准

1、阶梯计费规则

百炼部分模型实行阶梯计费。单价取决于单次请求的输入 Token 总量。该请求的所有 Token 均按对应阶梯的单价结算。

例如,某模型设有两档计费区间:0 < Token ≤ 32K 和 32K < Token ≤ 128K。若输入 100K Token,因数值落在第二区间(32K < 100K ≤ 128K),所有 Token 均按第二档单价结算。

2、文本生成-千问

2.1 千问Max

计费规则:按输入Token和输出Token计费。

影响计费的因素:若模型支持Batch调用,其输入和输出Token单价均按实时推理价格的50%计费;若模型支持上下文缓存,仅输入Token享有折扣。两者不能同时生效。

1.中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3.6-max-preview > 上下文缓存享有折扣 非思考和思考模式 0<Token≤128K 9元 54元
qwen3.6-max-preview > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 15元 90元
qwen3-max > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 0<Token≤32K 2.5元 10元
qwen3-max > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 32K<Token≤128K 4元 16元
qwen3-max > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 7元 28元
qwen3-max-2026-01-23 非思考和思考模式 0<Token≤32K 2.5元 10元
qwen3-max-2026-01-23 非思考和思考模式 32K<Token≤128K 4元 16元
qwen3-max-2026-01-23 非思考和思考模式 128K<Token≤256K 7元 28元
qwen3-max-2025-09-23 仅非思考模式 0<Token≤32K 6元 24元
qwen3-max-2025-09-23 仅非思考模式 32K<Token≤128K 10元 40元
qwen3-max-2025-09-23 仅非思考模式 128K<Token≤256K 15元 60元
qwen3-max-preview > 上下文缓存享有折扣 非思考和思考模式 0<Token≤32K 6元 24元
qwen3-max-preview > 上下文缓存享有折扣 非思考和思考模式 32K<Token≤128K 10元 40元
qwen3-max-preview > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 15元 60元

更多模型

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token)
qwen-max > Batch调用半价 仅非思考模式 无阶梯计价 2.4元 9.6元
qwen-max-latest > Batch调用半价 仅非思考模式 无阶梯计价 2.4元 9.6元
qwen-max-2025-01-25 仅非思考模式 无阶梯计价 2.4元 9.6元
qwen-max-2024-09-19 仅非思考模式 无阶梯计价 20元 60元
qwen-max-2024-04-28 仅非思考模式 无阶梯计价 40元 120元

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

说明:全球部署范围下的模型无免费额度。

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3-max > 上下文缓存享有折扣 仅非思考模式 0<Token≤32K 2.5元 10元
qwen3-max > 上下文缓存享有折扣 仅非思考模式 32K<Token≤128K 4元 16元
qwen3-max > 上下文缓存享有折扣 仅非思考模式 128K<Token≤256K 7元 28元
qwen3-max-2025-09-23 仅非思考模式 0<Token≤32K 6元 24元
qwen3-max-2025-09-23 仅非思考模式 32K<Token≤128K 10元 40元
qwen3-max-2025-09-23 仅非思考模式 128K<Token≤256K 15元 60元
qwen3-max-preview > 上下文缓存享有折扣 非思考和思考模式 0<Token≤32K 6元 24元
qwen3-max-preview > 上下文缓存享有折扣 非思考和思考模式 32K<Token≤128K 10元 40元
qwen3-max-preview > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 15元 60元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

说明:国际部署范围下的模型无免费额度。

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3.6-max-preview > 上下文缓存享有折扣 非思考和思考模式 0<Token≤128K 9.742元 58.455元
qwen3.6-max-preview > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 14.988元 89.93元
qwen3-max > 上下文缓存享有折扣 非思考和思考模式 0<Token≤32K 8.807元 44.035元
qwen3-max > 上下文缓存享有折扣 非思考和思考模式 32K<Token≤128K 17.614元 88.071元
qwen3-max > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 22.018元 110.089元
qwen3-max-2026-01-23 非思考和思考模式 0<Token≤32K 8.807元 44.035元
qwen3-max-2026-01-23 非思考和思考模式 32K<Token≤128K 17.614元 88.071元
qwen3-max-2026-01-23 非思考和思考模式 128K<Token≤256K 22.018元 110.089元
qwen3-max-2025-09-23 仅非思考模式 0<Token≤32K 8.807元 44.035元
qwen3-max-2025-09-23 仅非思考模式 32K<Token≤128K 17.614元 88.071元
qwen3-max-2025-09-23 仅非思考模式 128K<Token≤256K 22.018元 110.089元
qwen3-max-preview > 上下文缓存享有折扣 非思考和思考模式 0<Token≤32K 8.807元 44.035元
qwen3-max-preview > 上下文缓存享有折扣 非思考和思考模式 32K<Token≤128K 17.614元 88.071元
qwen3-max-preview > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 22.018元 110.089元

更多模型

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token)
qwen-max > Batch调用半价 仅非思考模式 无阶梯计价 11.743元 46.971元
qwen-max-latest 仅非思考模式 无阶梯计价 11.743元 46.971元
qwen-max-2025-01-25 仅非思考模式 无阶梯计价 11.743元 46.971元

4. 欧盟
服务部署范围为欧盟时,模型推理计算资源仅限于欧盟境内;静态数据存储于您所选的地域。该部署范围支持的地域:德国(法兰克福)。

说明:欧盟部署范围下的模型无免费额度。

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3-max 非思考和思考模式 0<Token≤32K 8.993元 44.965元
qwen3-max 非思考和思考模式 32K<Token≤128K 17.986元 89.93元
qwen3-max 非思考和思考模式 128K<Token≤256K 22.483元 112.413元
qwen3-max-2026-01-23 非思考和思考模式 0<Token≤32K 8.993元 44.965元
qwen3-max-2026-01-23 非思考和思考模式 32K<Token≤128K 17.986元 89.93元
qwen3-max-2026-01-23 非思考和思考模式 128K<Token≤256K 22.483元 112.413元

2.2 千问Plus

计费规则:按输入Token和输出Token计费。
影响计费的因素:若模型支持Batch调用,其输入和输出Token单价均按实时推理价格的50%计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 单次请求的输入Token范围 输入单价(每百万Token) 非思考模式 输出单价(每百万Token) 思考模式(思维链+回答)输出单价(每百万Token)
qwen3.6-plus 0<Token≤256K 2元 12元 12元
qwen3.6-plus 256K<Token≤1M 8元 48元 48元
qwen3.6-plus-2026-04-02 0<Token≤256K 2元 12元 12元
qwen3.6-plus-2026-04-02 256K<Token≤1M 8元 48元 48元
qwen3.5-plus 0<Token≤128K 0.8元 4.8元 4.8元
qwen3.5-plus 128K<Token≤256K 2元 12元 12元
qwen3.5-plus 256K<Token≤1M 4元 24元 24元
qwen3.5-plus-2026-04-20 0<Token≤128K 0.8元 4.8元 4.8元
qwen3.5-plus-2026-04-20 128K<Token≤256K 2元 12元 12元
qwen3.5-plus-2026-04-20 256K<Token≤1M 4元 24元 24元
qwen3.5-plus-2026-02-15 0<Token≤128K 0.8元 4.8元 4.8元
qwen3.5-plus-2026-02-15 128K<Token≤256K 2元 12元 12元
qwen3.5-plus-2026-02-15 256K<Token≤1M 4元 24元 24元
qwen-plus > Batch调用半价 0<Token≤128K 0.8元 2元 8元
qwen-plus > Batch调用半价 128K<Token≤256K 2.4元 20元 24元
qwen-plus > Batch调用半价 256K<Token≤1M 4.8元 48元 64元
qwen-plus-latest > Batch调用半价 0<Token≤128K 0.8元 2元 8元
qwen-plus-latest > Batch调用半价 128K<Token≤256K 2.4元 20元 24元
qwen-plus-latest > Batch调用半价 256K<Token≤1M 4.8元 48元 64元
qwen-plus-2025-12-01 0<Token≤128K 0.8元 2元 8元
qwen-plus-2025-12-01 128K<Token≤256K 2.4元 20元 24元
qwen-plus-2025-12-01 256K<Token≤1M 4.8元 48元 64元
qwen-plus-2025-09-11 0<Token≤128K 0.8元 2元 8元
qwen-plus-2025-09-11 128K<Token≤256K 2.4元 20元 24元
qwen-plus-2025-09-11 256K<Token≤1M 4.8元 48元 64元
qwen-plus-2025-07-28 0<Token≤128K 0.8元 2元 8元
qwen-plus-2025-07-28 128K<Token≤256K 2.4元 20元 24元
qwen-plus-2025-07-28 256K<Token≤1M 4.8元 48元 64元
qwen-plus-2025-07-14 无阶梯计价 0.8元 2元 8元
qwen-plus-2025-04-28 无阶梯计价 0.8元 2元 8元

更多模型

模型名称 单次请求的输入Token范围 输入单价(每百万Token) 输出单价(每百万Token)
qwen-plus-2025-01-25 无阶梯计价 0.8元 2元
qwen-plus-2025-01-12 无阶梯计价 0.8元 2元
qwen-plus-2024-12-20 无阶梯计价 0.8元 2元

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

说明:全球部署范围下的模型无免费额度。

模型名称 单次请求的输入Token范围 输入单价 (每百万Token) 非思考模式 输出单价 (每百万Token) 思考模式(思维链+回答)输出单价 (每百万Token)
qwen3.6-plus 0<Token≤256K 2元 12元 12元
qwen3.6-plus 256K<Token≤1M 8元 48元 48元
qwen3.6-plus-2026-04-02 0<Token≤256K 2元 12元 12元
qwen3.6-plus-2026-04-02 256K<Token≤1M 8元 48元 48元
qwen3.5-plus 0<Token≤128K 0.8元 4.8元 4.8元
qwen3.5-plus 128K<Token≤256K 2元 12元 12元
qwen3.5-plus 256K<Token≤1M 4元 24元 24元
qwen3.5-plus-2026-02-15 0<Token≤128K 0.8元 4.8元 4.8元
qwen3.5-plus-2026-02-15 128K<Token≤256K 2元 12元 12元
qwen3.5-plus-2026-02-15 256K<Token≤1M 4元 24元 24元
qwen-plus 0<Token≤128K 0.8元 2元 8元
qwen-plus 128K<Token≤256K 2.4元 20元 24元
qwen-plus 256K<Token≤1M 4.8元 48元 64元
qwen-plus-2025-12-01 0<Token≤128K 0.8元 2元 8元
qwen-plus-2025-12-01 128K<Token≤256K 2.4元 20元 24元
qwen-plus-2025-12-01 256K<Token≤1M 4.8元 48元 64元
qwen-plus-2025-09-11 0<Token≤128K 0.8元 2元 8元
qwen-plus-2025-09-11 128K<Token≤256K 2.4元 20元 24元
qwen-plus-2025-09-11 256K<Token≤1M 4.8元 48元 64元
qwen-plus-2025-07-28 0<Token≤128K 0.8元 2元 8元
qwen-plus-2025-07-28 128K<Token≤256K 2.4元 20元 24元
qwen-plus-2025-07-28 256K<Token≤1M 4.8元 48元 64元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

说明:国际部署范围下的模型无免费额度。

模型名称 单次请求的输入Token范围 输入单价 (每百万Token) 非思考模式 输出单价 (每百万Token) 思考模式(思维链+回答)输出单价 (每百万Token)
qwen3.6-plus 0<Token≤256K 3.7471元 22.4826元 22.4826元
qwen3.6-plus 256K<Token≤1M 14.9884元 44.965元 44.965元
qwen3.6-plus-2026-04-02 0<Token≤256K 3.7471元 22.4826元 22.4826元
qwen3.6-plus-2026-04-02 256K<Token≤1M 14.9884元 44.965元 44.965元
qwen3.5-plus 0<Token≤256K 2.936元 17.614元 17.614元
qwen3.5-plus 256K<Token≤1M 3.67元 22.018元 22.018元
qwen3.5-plus-2026-04-20 0<Token≤256K 2.936元 17.614元 17.614元
qwen3.5-plus-2026-04-20 256K<Token≤1M 3.67元 22.018元 22.018元
qwen3.5-plus-2026-02-15 0<Token≤256K 2.936元 17.614元 17.614元
qwen3.5-plus-2026-02-15 256K<Token≤1M 3.67元 22.018元 22.018元
qwen-plus 0<Token≤256K 2.936元 8.807元 29.357元
qwen-plus 256K<Token≤1M 8.807元 26.421元 88.071元
qwen-plus-latest 0<Token≤256K 2.936元 8.807元 29.357元
qwen-plus-latest 256K<Token≤1M 8.807元 26.421元 88.071元
qwen-plus-2025-12-01 0<Token≤256K 2.936元 8.807元 29.357元
qwen-plus-2025-12-01 256K<Token≤1M 8.807元 26.421元 88.071元
qwen-plus-2025-09-11 0<Token≤256K 2.936元 8.807元 29.357元
qwen-plus-2025-09-11 256K<Token≤1M 8.807元 26.421元 88.071元
qwen-plus-2025-07-28 0<Token≤256K 2.936元 8.807元 29.357元
qwen-plus-2025-07-28 256K<Token≤1M 8.807元 26.421元 88.071元
qwen-plus-2025-07-14 无阶梯计价 2.936元 8.807元 29.357元
qwen-plus-2025-04-28 无阶梯计价 2.936元 8.807元 29.357元

4. 美国
服务部署范围为美国时,模型推理计算资源仅限于美国境内;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)。

说明:美国部署范围下的模型无免费额度。

模型名称 单次请求的输入Token范围 输入单价 (每百万Token) 非思考模式 输出单价 (每百万Token) 思考模式(思维链+回答)输出单价 (每百万Token)
qwen-plus-us > 上下文缓存享有折扣 0<Token≤256K 2.936元 8.807元 29.357元
qwen-plus-us > 上下文缓存享有折扣 256K<Token≤1M 8.807元 26.421元 88.071元
qwen-plus-2025-12-01-us 0<Token≤256K 2.936元 8.807元 29.357元
qwen-plus-2025-12-01-us 256K<Token≤1M 8.807元 26.421元 88.071元

5. 欧盟
服务部署范围为欧盟时,模型推理计算资源仅限于欧盟境内;静态数据存储于您所选的地域。该部署范围支持的地域:德国(法兰克福)。

说明:欧盟部署范围下的模型无免费额度。

模型名称 单次请求的输入Token范围 输入单价 (每百万Token) 非思考模式 输出单价 (每百万Token) 思考模式(思维链+回答)输出单价 (每百万Token)
qwen-plus 0<Token≤256K 2.998元 8.993元 29.977元
qwen-plus 256K<Token≤1M 8.993元 26.979元 89.93元
qwen-plus-2025-12-01 0<Token≤256K 2.998元 8.993元 29.977元
qwen-plus-2025-12-01 256K<Token≤1M 8.993元 26.979元 89.93元

2.3 千问Flash

计费规则:按输入Token和输出Token计费。
影响计费的因素:若模型支持Batch调用,其输入和输出Token单价均按实时推理价格的50%计费;若模型支持上下文缓存,仅输入Token享有折扣。两者不能同时生效。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3.6-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 0<Token≤256K 1.2元 7.2元
qwen3.6-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 256K<Token≤1M 4.8元 28.8元
qwen3.6-flash-2026-04-16 非思考和思考模式 0<Token≤256K 1.2元 7.2元
qwen3.6-flash-2026-04-16 非思考和思考模式 256K<Token≤1M 4.8元 28.8元
qwen3.5-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 0<Token≤128K 0.2元 2元
qwen3.5-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 0.8元 8元
qwen3.5-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 256K<Token≤1M 1.2元 12元
qwen3.5-flash-2026-02-23 非思考和思考模式 0<Token≤128K 0.2元 2元
qwen3.5-flash-2026-02-23 非思考和思考模式 128K<Token≤256K 0.8元 8元
qwen3.5-flash-2026-02-23 非思考和思考模式 256K<Token≤1M 1.2元 12元
qwen-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 0<Token≤128K 0.15元 1.5元
qwen-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 0.6元 6元
qwen-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 256K<Token≤1M 1.2元 12元
qwen-flash-2025-07-28 非思考和思考模式 0<Token≤128K 0.15元 1.5元
qwen-flash-2025-07-28 非思考和思考模式 128K<Token≤256K 0.6元 6元
qwen-flash-2025-07-28 非思考和思考模式 256K<Token≤1M 1.2元 12元

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

说明:全球部署范围下的模型无免费额度。

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3.6-flash > 上下文缓存享有折扣 非思考和思考模式 0<Token≤256K 1.2元 7.2元
qwen3.6-flash > 上下文缓存享有折扣 非思考和思考模式 256K<Token≤1M 4.8元 28.8元
qwen3.6-flash-2026-04-16 非思考和思考模式 0<Token≤256K 1.2元 7.2元
qwen3.6-flash-2026-04-16 非思考和思考模式 256K<Token≤1M 4.8元 28.8元
qwen3.5-flash > 上下文缓存享有折扣 非思考和思考模式 0<Token≤128K 0.2元 2元
qwen3.5-flash > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 0.8元 8元
qwen3.5-flash > 上下文缓存享有折扣 非思考和思考模式 256K<Token≤1M 1.2元 12元
qwen3.5-flash-2026-02-23 非思考和思考模式 0<Token≤128K 0.2元 2元
qwen3.5-flash-2026-02-23 非思考和思考模式 128K<Token≤256K 0.8元 8元
qwen3.5-flash-2026-02-23 非思考和思考模式 256K<Token≤1M 1.2元 12元
qwen-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 0<Token≤128K 0.15元 1.5元
qwen-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 0.6元 6元
qwen-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 256K<Token≤1M 1.2元 12元
qwen-flash-2025-07-28 非思考和思考模式 0<Token≤128K 0.15元 1.5元
qwen-flash-2025-07-28 非思考和思考模式 128K<Token≤256K 0.6元 6元
qwen-flash-2025-07-28 非思考和思考模式 256K<Token≤1M 1.2元 12元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

说明:国际部署范围下的模型无免费额度。

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3.6-flash > 上下文缓存享有折扣 非思考和思考模式 0<Token≤256K 1.87355元 11.2413元
qwen3.6-flash > 上下文缓存享有折扣 非思考和思考模式 256K<Token≤1M 7.4942元 29.9758元
qwen3.6-flash-2026-04-16 非思考和思考模式 0<Token≤256K 1.87355元 11.2413元
qwen3.6-flash-2026-04-16 非思考和思考模式 256K<Token≤1M 7.4942元 29.9758元
qwen3.5-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 0<Token≤1M 0.734元 2.936元
qwen3.5-flash-2026-02-23 非思考和思考模式 0<Token≤1M 0.734元 2.936元
qwen-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 0<Token≤256K 0.367元 2.936元
qwen-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 256K<Token≤1M 1.835元 14.678元
qwen-flash-2025-07-28 非思考和思考模式 0<Token≤256K 0.367元 2.936元
qwen-flash-2025-07-28 非思考和思考模式 256K<Token≤1M 1.835元 14.678元

4. 美国
服务部署范围为美国时,模型推理计算资源仅限于美国境内;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)。

说明:美国部署范围下的模型无免费额度。

模型名称 单次请求的输入Token范围 输入单价 (每百万Token) 输出单价 (每百万Token)
qwen-flash-us > 上下文缓存享有折扣 0<Token≤256K 0.367元 2.936元
qwen-flash-us > 上下文缓存享有折扣 256K<Token≤1M 1.835元 14.678元
qwen-flash-2025-07-28-us 0<Token≤256K 0.367元 2.936元
qwen-flash-2025-07-28-us 256K<Token≤1M 1.835元 14.678元

5. 欧盟
服务部署范围为欧盟时,模型推理计算资源仅限于欧盟境内;静态数据存储于您所选的地域。该部署范围支持的地域:德国(法兰克福)。

说明:欧盟部署范围下的模型无免费额度。

模型名称 模式 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3.5-flash 非思考和思考模式 0.749元 2.998元
qwen3.5-flash-2026-02-23 非思考和思考模式 0.749元 2.998元

2.4 千问Turbo

计费规则:按输入Token和输出Token计费。

影响计费的因素:若模型支持Batch调用,其输入和输出Token单价均按实时推理价格的50%计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 模式 输入单价(每百万Token) 非思考模式 输出单价(每百万Token) 思考模式(思维链+回答) 输出单价(每百万Token)
qwen-turbo > Batch调用半价 非思考和思考模式 0.3元 0.6元 3元
qwen-turbo-latest > Batch调用半价 非思考和思考模式 0.3元 0.6元 3元
qwen-turbo-2025-07-15 非思考和思考模式 0.3元 0.6元 3元
qwen-turbo-2025-04-28 非思考和思考模式 0.3元 0.6元 3元

更多模型

模型名称 输入单价(每百万Token) 输出单价(每百万Token) 免费额度有效期:百炼开通后90天内
qwen-turbo-2025-02-11 0.3元 0.6元 100万Token
qwen-turbo-2024-11-01 0.3元 0.6元 1000万Token

2. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 模式 输入单价 (每百万Token) 非思考模式 输出单价 (每百万Token) 思考模式(思维链+回答) 输出单价 (每百万Token)
qwen-turbo > Batch调用半价 非思考和思考 0.367元 1.468元 3.67元
qwen-turbo-latest 非思考和思考 0.367元 1.468元 3.67元
qwen-turbo-2025-04-28 非思考和思考 0.367元 1.468元 3.67元

更多模型

模型名称 输入单价 (每百万Token) 输出单价 (每百万Token)
qwen-turbo-2024-11-01 0.367元 1.468元

2.5 QwQ

计费规则:按输入Token和输出Token计费。
影响计费的因素:若模型支持Batch调用,其输入和输出Token单价均按实时推理价格的50%计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 模式 输入单价(每百万Token) 输出单价(每百万Token)
qwq-plus > Batch调用半价 仅思考模式 1.6元 4元
qwq-plus-latest 仅思考模式 1.6元 4元
qwq-plus-2025-03-05 仅思考模式 1.6元 4元

2. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 模式 输入单价 (每百万Token) 输出单价 (每百万Token)
qwq-plus 仅思考模式 5.871元 17.614元

2.6 千问Long

计费规则:按输入Token和输出Token计费。
影响计费的因素:若模型支持Batch调用,其输入和输出Token单价均按实时推理价格的50%计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qwen-long > Batch调用半价 0.5元 2元
qwen-long-latest 0.5元 2元
qwen-long-2025-01-25 0.5元 2元

2.7 千问Omni

计费规则:按输入Token和输出Token计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 文本/图片/视频 输入单价(每百万Token) 音频 输入单价(每百万Token) 文本 > 多模态输入 输出单价(每百万Token) 文本+音频 > 仅音频计费 输出单价(每百万Token)
qwen3.5-omni-plus 7元 53元 40元 213元
qwen3.5-omni-plus-2026-03-15 7元 53元 40元 213元
qwen3.5-omni-flash 2.2元 18元 13.3元 72元
qwen3.5-omni-flash-2026-03-15 2.2元 18元 13.3元 72元

更多模型

模型名称 模式 文本 输入单价(每百万Token) 音频 输入单价(每百万Token) 图片/视频 输入单价(每百万Token) 文本 > 仅纯文本输入 输出单价(每百万Token) 文本 > 多模态输入 输出单价(每百万Token) 文本+音频 > 仅音频计费 输出单价(每百万Token)
qwen3-omni-flash 非思考和思考模式 1.8元 15.8元 3.3元 6.9元 12.7元 62.6元
qwen3-omni-flash-2025-12-01 非思考和思考模式 1.8元 15.8元 3.3元 6.9元 12.7元 62.6元
qwen3-omni-flash-2025-09-15 非思考和思考模式 1.8元 15.8元 3.3元 6.9元 12.7元 62.6元
qwen-omni-turbo 非思考模式 0.4元 25元 1.5元 1.6元 4.5元 50元
qwen-omni-turbo-latest 非思考模式 0.4元 25元 1.5元 1.6元 4.5元 50元
qwen-omni-turbo-2025-03-26 非思考模式 0.4元 25元 1.5元 1.6元 4.5元 50元
qwen-omni-turbo-2025-01-19 非思考模式 0.4元 25元 1.5元 1.6元 4.5元 50元

2. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 文本/图片/视频 输入单价(每百万Token) 音频 输入单价(每百万Token 文本 > 多模态输入 输出单价(每百万Token) 文本+音频 > 仅音频计费 输出单价(每百万Token)
qwen3.5-omni-plus 10.49元 82.44元 62.2元 329.74元
qwen3.5-omni-plus-2026-03-15 10.49元 82.44元 62.2元 329.74元
qwen3.5-omni-flash 3元 22.48元 16.49元 89.18元
qwen3.5-omni-flash-2026-03-15 3元 22.48元 16.49元 89.18元

更多模型

模型名称 模式 文本 输入单价(每百万Token) 音频 输入单价(每百万Token) 图片/视频 输入单价(每百万Token) 文本>仅纯文本输入 输出单价(每百万Token) 文本 > 多模态输入 输出单价(每百万Token) 文本+音频 > 仅音频计费 输出单价(每百万Token)
qwen3-omni-flash 非思考和思考模式 3.156元 27.962元 5.725元 12.183元 22.458元 110.896元
qwen3-omni-flash-2025-12-01 非思考和思考模式 3.156元 27.962元 5.725元 12.183元 22.458元 110.896元
qwen3-omni-flash-2025-09-15 非思考和思考模式 3.156元 27.962元 5.725元 12.183元 22.458元 110.896元
qwen-omni-turbo 非思考模式 0.514元 32.586元 1.541元 1.982元 4.624元 65.246元
qwen-omni-turbo-latest 非思考模式 0.514元 32.586元 1.541元 1.982元 4.624元 65.246元
qwen-omni-turbo-2025-03-26 非思考模式 0.514元 32.586元 1.541元 1.982元 4.624元 65.246元

2.8 千问Omni-Realtime

计费规则:按输入Token和输出Token计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 文本/图片 输入单价(每百万Token) 音频 输入单价(每百万Token) 文本 > 多模态输入 输出单价(每百万Token) 文本+音频 > 仅音频计费 输出单价(每百万Token)
qwen3.5-omni-plus-realtime 10元 80元 60元 300元
qwen3.5-omni-plus-realtime-2026-03-15 10元 80元 60元 300元
qwen3.5-omni-flash-realtime 3.3元 27元 20元 107元
qwen3.5-omni-flash-realtime-2026-03-15 3.3元 27元 20元 107元

2. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 文本/图片 输入单价(每百万Token) 音频 输入单价(每百万Token) 文本 > 多模态输入 输出单价(每百万Token) 文本+音频 > 仅音频计费 输出单价(每百万Token)
qwen3.5-omni-plus-realtime 15.74元 123.65元 92.93元 464.64元
qwen3.5-omni-plus-realtime-2026-03-15 15.74元 123.65元 92.93元 464.64元
qwen3.5-omni-flash-realtime 4.12元 33.72元 24.73元 132.65元
qwen3.5-omni-flash-realtime-2026-03-15 4.12元 33.72元 24.73元 132.65元

2.9 QVQ

计费规则:按输入Token和输出Token计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qvq-max 8元 32元
qvq-max-latest 8元 32元
qvq-max-2025-05-15 8元 32元
qvq-max-2025-03-25 8元 32元
qvq-plus 2元 5元
qvq-plus-latest 2元 5元
qvq-plus-2025-05-15 2元 5元

2. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 输入单价 (每百万Token) 输出单价 (每百万Token)
qvq-max 8.807元 35.228元
qvq-max-latest 8.807元 35.228元
qvq-max-2025-03-25 8.807元 35.228元

2.10 千问VL

计费规则:按输入Token和输出Token计费。
影响计费的因素:若模型支持Batch调用,其输入和输出Token单价均按实时推理价格的50%计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3-vl-plus > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 0<Token≤32K 1元 10元
qwen3-vl-plus > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 32K<Token≤128K 1.5元 15元
qwen3-vl-plus > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 3元 30元
qwen3-vl-plus-2025-12-19 非思考和思考模式 0<Token≤32K 1元 10元
qwen3-vl-plus-2025-12-19 非思考和思考模式 32K<Token≤128K 1.5元 15元
qwen3-vl-plus-2025-12-19 非思考和思考模式 128K<Token≤256K 3元 30元
qwen3-vl-plus-2025-09-23 非思考和思考模式 0<Token≤32K 1元 10元
qwen3-vl-plus-2025-09-23 非思考和思考模式 32K<Token≤128K 1.5元 15元
qwen3-vl-plus-2025-09-23 非思考和思考模式 128K<Token≤256K 3元 30元
qwen3-vl-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 0<Token≤32K 0.15元 1.5元
qwen3-vl-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 32K<Token≤128K 0.3元 3元
qwen3-vl-flash > Batch调用半价 > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 0.6元 6元
qwen3-vl-flash-2026-01-22 非思考和思考模式 0<Token≤32K 0.15元 1.5元
qwen3-vl-flash-2026-01-22 非思考和思考模式 32K<Token≤128K 0.3元 3元
qwen3-vl-flash-2026-01-22 非思考和思考模式 128K<Token≤256K 0.6元 6元
qwen3-vl-flash-2025-10-15 非思考和思考模式 0<Token≤32K 0.15元 1.5元
qwen3-vl-flash-2025-10-15 非思考和思考模式 32K<Token≤128K 0.3元 3元
qwen3-vl-flash-2025-10-15 非思考和思考模式 128K<Token≤256K 0.6元 6元

更多模型

模型名称 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token)
qwen-vl-max > Batch调用半价 > 上下文缓存享有折扣 无阶梯计价 1.6元 4元
qwen-vl-max-latest > Batch调用半价 无阶梯计价 1.6元 4元
qwen-vl-max-2025-08-13 无阶梯计价 1.6元 4元
qwen-vl-max-2025-04-08 无阶梯计价 3元 9元
qwen-vl-max-2025-04-02 无阶梯计价 3元 9元
qwen-vl-max-2025-01-25 无阶梯计价 3元 9元
qwen-vl-max-2024-12-30 无阶梯计价 3元 9元
qwen-vl-max-2024-11-19 无阶梯计价 3元 9元
qwen-vl-plus > Batch调用半价 > 上下文缓存享有折扣 无阶梯计价 0.8元 2元
qwen-vl-plus-latest > Batch调用半价 无阶梯计价 0.8元 2元
qwen-vl-plus-2025-08-15 无阶梯计价 0.8元 2元
qwen-vl-plus-2025-07-10 无阶梯计价 0.15元 1.5元
qwen-vl-plus-2025-05-07 无阶梯计价 1.5元 4.5元
qwen-vl-plus-2025-01-25 无阶梯计价 1.5元 4.5元
qwen-vl-plus-2025-01-02 无阶梯计价 1.5元 4.5元

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3-vl-plus > 上下文缓存享有折扣 非思考和思考模式 0<Token≤32K 1元 10元
qwen3-vl-plus > 上下文缓存享有折扣 非思考和思考模式 32K<Token≤128K 1.5元 15元
qwen3-vl-plus > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 3元 30元
qwen3-vl-plus-2025-09-23 非思考和思考模式 0<Token≤32K 1元 10元
qwen3-vl-plus-2025-09-23 非思考和思考模式 32K<Token≤128K 1.5元 15元
qwen3-vl-plus-2025-09-23 非思考和思考模式 128K<Token≤256K 3元 30元
qwen3-vl-flash > 上下文缓存享有折扣 非思考和思考模式 0<Token≤32K 0.15元 1.5元
qwen3-vl-flash > 上下文缓存享有折扣 非思考和思考模式 32K<Token≤128K 0.3元 3元
qwen3-vl-flash > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 0.6元 6元
qwen3-vl-flash-2025-10-15 非思考和思考模式 0<Token≤32K 0.15元 1.5元
qwen3-vl-flash-2025-10-15 非思考和思考模式 32K<Token≤128K 0.3元 3元
qwen3-vl-flash-2025-10-15 非思考和思考模式 128K<Token≤256K 0.6元 6元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 模式 单次请求的输入Token数 输入单价 (每百万Token) 输出单价 (每百万Token)
qwen3-vl-plus > 上下文缓存享有折扣 非思考和思考模式 0<Token≤32K 1.468元 11.743元
qwen3-vl-plus > 上下文缓存享有折扣 非思考和思考模式 32K<Token≤128K 2.202元 17.614元
qwen3-vl-plus > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 4.404元 35.228元
qwen3-vl-plus-2025-12-19 非思考和思考模式 0<Token≤32K 1.468元 11.743元
qwen3-vl-plus-2025-12-19 非思考和思考模式 32K<Token≤128K 2.202元 17.614元
qwen3-vl-plus-2025-12-19 非思考和思考模式 128K<Token≤256K 4.404元 35.228元
qwen3-vl-plus-2025-09-23 非思考和思考模式 0<Token≤32K 1.468元 11.743元
qwen3-vl-plus-2025-09-23 非思考和思考模式 32K<Token≤128K 2.202元 17.614元
qwen3-vl-plus-2025-09-23 非思考和思考模式 128K<Token≤256K 4.404元 35.228元
qwen3-vl-flash > 上下文缓存享有折扣 非思考和思考模式 0<Token≤32K 0.367元 2.936元
qwen3-vl-flash > 上下文缓存享有折扣 非思考和思考模式 32K<Token≤128K 0.55元 4.404元
qwen3-vl-flash > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 0.881元 7.046元
qwen3-vl-flash-2026-01-22 非思考和思考模式 0<Token≤32K 0.367元 2.936元
qwen3-vl-flash-2026-01-22 非思考和思考模式 32K<Token≤128K 0.55元 4.404元
qwen3-vl-flash-2026-01-22 非思考和思考模式 128K<Token≤256K 0.881元 7.046元
qwen3-vl-flash-2025-10-15 非思考和思考模式 0<Token≤32K 0.367元 2.936元
qwen3-vl-flash-2025-10-15 非思考和思考模式 32K<Token≤128K 0.55元 4.404元
qwen3-vl-flash-2025-10-15 非思考和思考模式 128K<Token≤256K 0.881元 7.046元

更多模型

模型名称 单次请求的输入Token数 输入单价 (每百万Token) 输出单价 (每百万Token)
qwen-vl-max > 上下文缓存享有折扣 无阶梯计价 5.871元 23.486元
qwen-vl-max-latest 无阶梯计价 5.871元 23.486元
qwen-vl-max-2025-08-13 无阶梯计价 5.871元 23.486元
qwen-vl-max-2025-04-08 无阶梯计价 5.871元 23.486元
qwen-vl-plus > 上下文缓存享有折扣 无阶梯计价 1.541元 4.624元
qwen-vl-plus-latest 无阶梯计价 1.541元 4.624元
qwen-vl-plus-2025-08-15 无阶梯计价 1.541元 4.624元
qwen-vl-plus-2025-05-07 无阶梯计价 1.541元 4.624元
qwen-vl-plus-2025-01-25 无阶梯计价 1.541元 4.624元

4. 美国
服务部署范围为美国时,模型推理计算资源仅限于美国境内;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)。

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3-vl-flash-us > 上下文缓存享有折扣 非思考和思考模式 0<Token≤32K 0.367元 2.936元
qwen3-vl-flash-us > 上下文缓存享有折扣 非思考和思考模式 32K<Token≤128K 0.55元 4.404元
qwen3-vl-flash-us > 上下文缓存享有折扣 非思考和思考模式 128K<Token≤256K 0.881元 7.046元
qwen3-vl-flash-2025-10-15-us 非思考和思考模式 0<Token≤32K 0.367元 2.936元
qwen3-vl-flash-2025-10-15-us 非思考和思考模式 32K<Token≤128K 0.55元 4.404元
qwen3-vl-flash-2025-10-15-us 非思考和思考模式 128K<Token≤256K 0.881元 7.046元

4. 欧盟
服务部署范围为欧盟时,模型推理计算资源仅限于欧盟境内;静态数据存储于您所选的地域。该部署范围支持的地域:德国(法兰克福)。

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3-vl-plus 非思考和思考模式 0<Token≤32K 1.499元 11.991元
qwen3-vl-plus 非思考和思考模式 32K<Token≤128K 2.248元 17.986元
qwen3-vl-plus 非思考和思考模式 128K<Token≤256K 4.497元 35.972元
qwen3-vl-flash 非思考和思考模式 0<Token≤32K 0.375元 2.998元
qwen3-vl-flash 非思考和思考模式 32K<Token≤128K 0.562元 4.497元
qwen3-vl-flash 非思考和思考模式 128K<Token≤256K 0.899元 7.194元
qwen3-vl-flash-2025-10-15 非思考和思考模式 0<Token≤32K 0.375元 2.998元
qwen3-vl-flash-2025-10-15 非思考和思考模式 32K<Token≤128K 0.562元 4.497元
qwen3-vl-flash-2025-10-15 非思考和思考模式 128K<Token≤256K 0.899元 7.194元

2.11 千问OCR

计费规则:按输入Token和输出Token计费。
影响计费的因素:若模型支持Batch调用,其输入和输出Token单价均按实时推理价格的50%计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qwen-vl-ocr > Batch调用半价 0.3元 0.5元
qwen-vl-ocr-latest > Batch调用半价 0.3元 0.5元
qwen-vl-ocr-2025-11-20 0.3元 0.5元
qwen-vl-ocr-2025-08-28 5元 5元
qwen-vl-ocr-2025-04-13 5元 5元
qwen-vl-ocr-2024-10-28 5元 5元

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qwen-vl-ocr 0.3元 0.5元
qwen-vl-ocr-2025-11-20 0.3元 0.5元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qwen-vl-ocr 0.514元 1.174元
qwen-vl-ocr-2025-11-20 0.514元 1.174元

2.12 千问Audio

说明:服务部署范围仅支持中国内地。数据存储位于北京接入地域,模型推理计算资源仅限于中国内地。
计费规则:按输入Token和输出Token计费。
音频Token计算规则:每一秒钟的音频对应25个Token。若音频时长不足1秒,则按25个Token计算。

模型名称 输入单价(每百万Token) 输出单价(每百万Token) 免费额度
qwen-audio-turbo 目前仅供免费体验。 免费额度用完后不可调用,推荐使用全模态(Qwen-Omni)作为替代模型 各10万Token 有效期:阿里云百炼开通后90天内
qwen-audio-turbo-latest 目前仅供免费体验。 免费额度用完后不可调用,推荐使用全模态(Qwen-Omni)作为替代模型 各10万Token 有效期:阿里云百炼开通后90天内

2.13 千问数学模型

计费规则:按输入Token和输出Token计费。

模型名称 输入单价(每百万Token) 输出单价(每百万Token) 免费额度
qwen-math-plus 4元 12元 各100万Token 有效期:阿里云百炼开通后90天内
qwen-math-turbo 2元 6元 各100万Token 有效期:阿里云百炼开通后90天内

2.14 千问Coder

计费规则:按输入Token和输出Token计费。

影响计费的因素:若模型支持上下文缓存,仅输入Token享有折扣。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token)
qwen3-coder-plus > 上下文缓存享有折扣 0<Token≤32K 4元 16元
qwen3-coder-plus > 上下文缓存享有折扣 32K<Token≤128K 6元 24元
qwen3-coder-plus > 上下文缓存享有折扣 128K<Token≤256K 10元 40元
qwen3-coder-plus > 上下文缓存享有折扣 256K<Token≤1M 20元 200元
qwen3-coder-plus-2025-09-23 0<Token≤32K 4元 16元
qwen3-coder-plus-2025-09-23 32K<Token≤128K 6元 24元
qwen3-coder-plus-2025-09-23 128K<Token≤256K 10元 40元
qwen3-coder-plus-2025-09-23 256K<Token≤1M 20元 200元
qwen3-coder-plus-2025-07-22 0<Token≤32K 4元 16元
qwen3-coder-plus-2025-07-22 32K<Token≤128K 6元 24元
qwen3-coder-plus-2025-07-22 128K<Token≤256K 10元 40元
qwen3-coder-plus-2025-07-22 256K<Token≤1M 20元 200元
qwen3-coder-flash 0<Token≤32K 1元 4元
qwen3-coder-flash 32K<Token≤128K 1.5元 6元
qwen3-coder-flash 128K<Token≤256K 2.5元 10元
qwen3-coder-flash 256K<Token≤1M 5元 25元
qwen3-coder-flash-2025-07-28 0<Token≤32K 1元 4元
qwen3-coder-flash-2025-07-28 32K<Token≤128K 1.5元 6元
qwen3-coder-flash-2025-07-28 128K<Token≤256K 2.5元 10元
qwen3-coder-flash-2025-07-28 256K<Token≤1M 5元 25元

更多模型

模型名称 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token)
qwen-coder-plus 无阶梯计价 3.5元 7元
qwen-coder-plus-latest 无阶梯计价 3.5元 7元
qwen-coder-plus-2024-11-06 无阶梯计价 3.5元 7元
qwen-coder-turbo 无阶梯计价 2元 6元
qwen-coder-turbo-latest 无阶梯计价 2元 6元
qwen-coder-turbo-2024-09-19 无阶梯计价 2元 6元

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

模型名称 单次请求的输入Token数 输入单价 (每百万Token) 输出单价 (每百万Token)
qwen3-coder-plus 0<Token≤32K 4元 16元
qwen3-coder-plus 32K<Token≤128K 6元 24元
qwen3-coder-plus 128K<Token≤256K 10元 40元
qwen3-coder-plus 256K<Token≤1M 20元 200元
qwen3-coder-plus-2025-09-23 0<Token≤32K 4元 16元
qwen3-coder-plus-2025-09-23 32K<Token≤128K 6元 24元
qwen3-coder-plus-2025-09-23 128K<Token≤256K 10元 40元
qwen3-coder-plus-2025-09-23 256K<Token≤1M 20元 200元
qwen3-coder-plus-2025-07-22 0<Token≤32K 4元 16元
qwen3-coder-plus-2025-07-22 32K<Token≤128K 6元 24元
qwen3-coder-plus-2025-07-22 128K<Token≤256K 10元 40元
qwen3-coder-plus-2025-07-22 256K<Token≤1M 20元 200元
qwen3-coder-flash 0<Token≤32K 1元 4元
qwen3-coder-flash 32K<Token≤128K 1.5元 6元
qwen3-coder-flash 128K<Token≤256K 2.5元 10元
qwen3-coder-flash 256K<Token≤1M 5元 25元
qwen3-coder-flash-2025-07-28 0<Token≤32K 1元 4元
qwen3-coder-flash-2025-07-28 32K<Token≤128K 1.5元 6元
qwen3-coder-flash-2025-07-28 128K<Token≤256K 2.5元 10元
qwen3-coder-flash-2025-07-28 256K<Token≤1M 5元 25元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 单次请求的输入Token数 输入单价 (每百万Token) 输出单价 (每百万Token)
qwen3-coder-plus 0<Token≤32K 7.339元 36.696元
qwen3-coder-plus 32K<Token≤128K 13.211元 66.053元
qwen3-coder-plus 128K<Token≤256K 22.018元 110.089元
qwen3-coder-plus 256K<Token≤1M 44.035元 440.354元
qwen3-coder-plus-2025-09-23 0<Token≤32K 7.339元 36.696元
qwen3-coder-plus-2025-09-23 32K<Token≤128K 13.211元 66.053元
qwen3-coder-plus-2025-09-23 128K<Token≤256K 22.018元 110.089元
qwen3-coder-plus-2025-09-23 256K<Token≤1M 44.035元 440.354元
qwen3-coder-plus-2025-07-22 0<Token≤32K 7.339元 36.696元
qwen3-coder-plus-2025-07-22 32K<Token≤128K 13.211元 66.053元
qwen3-coder-plus-2025-07-22 128K<Token≤256K 22.018元 110.089元
qwen3-coder-plus-2025-07-22 256K<Token≤1M 44.035元 440.354元
qwen3-coder-flash 0<Token≤32K 2.202元 11.009元
qwen3-coder-flash 32K<Token≤128K 3.67元 18.348元
qwen3-coder-flash 128K<Token≤256K 5.871元 29.357元
qwen3-coder-flash 256K<Token≤1M 11.743元 70.457元
qwen3-coder-flash-2025-07-28 0<Token≤32K 2.202元 11.009元
qwen3-coder-flash-2025-07-28 32K<Token≤128K 3.67元 18.348元
qwen3-coder-flash-2025-07-28 128K<Token≤256K 5.871元 29.357元
qwen3-coder-flash-2025-07-28 256K<Token≤1M 11.743元 70.457元

2.15 千问翻译模型

计费规则:按输入Token和输出Token计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qwen-mt-plus 1.8元 5.4元
qwen-mt-flash 0.7元 1.95元
qwen-mt-lite 0.6元 1.6元
qwen-mt-turbo 0.7元 1.95元

2. 全球

服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

模型名称 输入单价 (每百万Token) 输出单价 (每百万Token)
qwen-mt-plus 1.8元 5.4元
qwen-mt-flash 0.7元 1.95元
qwen-mt-lite 0.6元 1.6元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 输入单价 (每百万Token) 输出单价 (每百万Token)
qwen-mt-plus 18.055元 54.09元
qwen-mt-flash 1.174元 3.596元
qwen-mt-lite 0.881元 2.642元
qwen-mt-turbo 1.174元 3.596元

4. 美国

服务部署范围为美国时,模型推理计算资源仅限于美国境内;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)。

模型名称 输入单价 (每百万Token) 输出单价 (每百万Token)
qwen-mt-lite-us 0.881元 2.642元

2.16 千问数据挖掘模型

说明:服务部署范围仅支持中国内地。数据存储位于北京接入地域,模型推理计算资源仅限于中国内地。

计费规则:按输入Token和输出Token计费。

模型名称 输入单价(每百万Token) 输出单价(每百万Token) 免费额度
qwen-doc-turbo 0.6元 1元 无免费额度

2.17 千问深入研究模型

说明:服务部署范围仅支持中国内地。数据存储位于北京接入地域,模型推理计算资源仅限于中国内地。

计费规则:按输入Token和输出Token计费。

模型名称 输入单价(每百万Token) 输出单价(每百万Token) 免费额度
qwen-deep-research 54元 163元 无免费额度

2.18 通义晓蜜对话分析模型

说明:服务部署范围仅支持中国内地。数据存储位于北京接入地域,模型推理计算资源仅限于中国内地。

计费规则:按输入Token和输出Token计费。

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
tongyi-xiaomi-analysis-flash 0.2元 0.4元
tongyi-xiaomi-analysis-pro 1.0元 2.7元

3、文本生成-千问-开源版

3.1 Qwen3.6

计费规则:按输入Token和输出Token计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 单次请求的输入Token范围 输入单价(每百万Token) 非思考模式 输出单价(每百万Token) 思考模式(思维链+回答)输出单价(每百万Token)
qwen3.6-35b-a3b 0<Token≤256K 1.8元 10.8元 10.8元
qwen3.6-27b 0<Token≤256K 3元 18元 18元

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

模型名称 单次请求的输入Token范围 输入单价(每百万Token) 非思考模式 输出单价(每百万Token) 思考模式(思维链+回答) 输出单价(每百万Token)
非思考模式 思考模式(思维链+回答)
qwen3.6-35b-a3b 0<Token≤256K 1.8元 10.8元 10.8元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 单次请求的输入Token范围 输入单价(每百万Token) 非思考模式 输出单价(每百万Token) 思考模式(思维链+回答)输出单价(每百万Token)
qwen3.6-35b-a3b 0<Token≤256K 2.810325元 16.86195元 16.86195元
qwen3.6-27b 0<Token≤256K 4.49652元 26.97912元 26.97912元

3.2 Qwen3.5

计费规则:按输入Token和输出Token计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 单次请求的输入Token范围 输入单价(每百万Token) 非思考模式 输出单价(每百万Token) 思考模式(思维链+回答)输出单价(每百万Token)
qwen3.5-397b-a17b 0<Token≤128K 1.2元 7.2元 7.2元
qwen3.5-397b-a17b 128K<Token≤256K 3元 18元 18元
qwen3.5-122b-a10b 0<Token≤128K 0.8元 6.4元 6.4元
qwen3.5-122b-a10b 128K<Token≤256K 2元 16元 16元
qwen3.5-27b 0<Token≤128K 0.6元 4.8元 4.8元
qwen3.5-27b 128K<Token≤256K 1.8元 14.4元 14.4元
qwen3.5-35b-a3b 0<Token≤128K 0.4元 3.2元 3.2元
qwen3.5-35b-a3b 128K<Token≤256K 1.6元 12.8元 12.8元

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

模型名称 单次请求的输入Token范围 输入单价(每百万Token) 非思考模式 输出单价(每百万Token) 思考模式(思维链+回答)输出单价(每百万Token)
qwen3.5-397b-a17b 0<Token≤128K 1.2元 7.2元 7.2元
qwen3.5-397b-a17b 128K<Token≤256K 3元 18元 18元
qwen3.5-122b-a10b 0<Token≤128K 0.8元 6.4元 6.4元
qwen3.5-122b-a10b 128K<Token≤256K 2元 16元 16元
qwen3.5-27b 0<Token≤128K 0.6元 4.8元 4.8元
qwen3.5-27b 128K<Token≤256K 1.8元 14.4元 14.4元
qwen3.5-35b-a3b 0<Token≤128K 0.4元 3.2元 3.2元
qwen3.5-35b-a3b 128K<Token≤256K 1.6元 12.8元 12.8元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 单次请求的输入Token范围 输入单价(每百万Token) 非思考模式 输出单价(每百万Token) 思考模式(思维链+回答) 输出单价(每百万Token)
qwen3.5-397b-a17b 0<Token≤256K 4.404元 26.421元 26.421元
qwen3.5-122b-a10b 0<Token≤256K 2.936元 23.486元 23.486元
qwen3.5-27b 0<Token≤256K 2.202元 17.614元 17.614元
qwen3.5-35b-a3b 0<Token≤256K 1.835元 14.678元 14.678元

3.3 Qwen3

计费规则:按输入Token和输出Token计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 模式 输入单价(每百万Token) 非思考模式 输出单价(每百万Token) 思考模式(思维链+回答)输出单价(每百万Token)
qwen3-next-80b-a3b-thinking 仅思考模式 1元 \- 10元
qwen3-next-80b-a3b-instruct 仅非思考模式 1元 4元 \-
qwen3-235b-a22b-thinking-2507 仅思考模式 2元 \- 20元
qwen3-235b-a22b-instruct-2507 仅非思考模式 2元 8元 \-
qwen3-30b-a3b-thinking-2507 仅思考模式 0.75元 \- 7.5元
qwen3-30b-a3b-instruct-2507 仅非思考模式 0.75元 3元 \-
qwen3-235b-a22b 非思考和思考模式 2元 8元 20元
qwen3-32b 非思考和思考模式 2元 8元 20元
qwen3-30b-a3b 非思考和思考模式 0.75元 3元 7.5元
qwen3-14b 非思考和思考模式 1元 4元 10元
qwen3-8b 非思考和思考模式 0.5元 2元 5元
qwen3-4b 非思考和思考模式 0.3元 1.2元 3元
qwen3-1.7b 非思考和思考模式 0.3元 1.2元 3元
qwen3-0.6b 非思考和思考模式 0.3元 1.2元 3元

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

模型名称 模式 输入单价(每百万Token) 非思考模式 输出单价(每百万Token) 思考模式(思维链+回答)输出单价(每百万Token)
qwen3-next-80b-a3b-thinking 仅思考模式 1元 \- 10元
qwen3-next-80b-a3b-instruct 仅非思考模式 1元 4元 \-
qwen3-235b-a22b-thinking-2507 仅思考模式 1.688元 \- 16.88元
qwen3-235b-a22b-instruct-2507 仅非思考模式 1.688元 6.752元 \-
qwen3-30b-a3b-thinking-2507 仅思考模式 0.75元 \- 7.5元
qwen3-30b-a3b-instruct-2507 仅非思考模式 0.75元 3元 \-
qwen3-235b-a22b 非思考和思考模式 2元 8元 20元
qwen3-32b 非思考和思考模式 1.174元 4.697元 4.697元
qwen3-30b-a3b 非思考和思考模式 0.75元 3元 7.5元
qwen3-14b 非思考和思考模式 1元 4元 10元
qwen3-8b 非思考和思考模式 0.5元 2元 5元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 模式 输入单价(每百万Token) 非思考模式 输出单价(每百万Token) 思考模式(思维链+回答) 输出单价(每百万Token)
qwen3-next-80b-a3b-thinking 仅思考模式 1.101元 \- 8.807元
qwen3-next-80b-a3b-instruct 仅非思考模式 1.101元 8.807元 \-
qwen3-235b-a22b-thinking-2507 仅思考模式 1.688元 \- 16.88元
qwen3-235b-a22b-instruct-2507 仅非思考模式 1.688元 6.752元 \-
qwen3-30b-a3b-thinking-2507 仅思考模式 1.468元 \- 17.614元
qwen3-30b-a3b-instruct-2507 仅非思考模式 1.468元 5.871元 \-
qwen3-235b-a22b 非思考和思考模式 5.137元 20.55元 61.65元
qwen3-32b 非思考和思考模式 1.174元 4.697元 4.697元
qwen3-30b-a3b 非思考和思考模式 1.468元 5.871元 17.614元
qwen3-14b 非思考和思考模式 2.569元 10.275元 30.825元
qwen3-8b 非思考和思考模式 1.321元 5.137元 15.412元
qwen3-4b 非思考和思考模式 0.807元 3.082元 9.247元
qwen3-1.7b 非思考和思考模式 0.807元 3.082元 9.247元
qwen3-0.6b 非思考和思考模式 0.807元 3.082元 9.247元

3.4 QwQ-开源版

计费规则:按输入Token和输出Token计费。

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qwq-32b 2元 6元

3.5 QwQ-Preview

计费规则:按输入Token和输出Token计费。

影响计费的因素:若模型支持Batch调用,其输入和输出Token单价均按实时推理价格的50%计费。

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qwq-32b-preview > Batch调用半价 2元 6元

3.6 Qwen2.5

计费规则:按输入Token和输出Token计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qwen2.5-14b-instruct-1m 1元 3元
qwen2.5-7b-instruct-1m 0.5元 1元
qwen2.5-72b-instruct 4元 12元
qwen2.5-32b-instruct 2元 6元
qwen2.5-14b-instruct 1元 3元
qwen2.5-7b-instruct 0.5元 1元
qwen2.5-3b-instruct 0.3元 0.9元

2. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

说明:国际(新加坡)模型无免费额度。

模型名称 输入单价 (每百万Token) 输出单价 (每百万Token)
qwen2.5-14b-instruct-1m 5.908元 23.632元
qwen2.5-7b-instruct-1m 2.701元 10.789元
qwen2.5-72b-instruct 10.275元 41.1元
qwen2.5-32b-instruct 5.137元 20.55元
qwen2.5-14b-instruct 2.569元 10.275元
qwen2.5-7b-instruct 1.284元 5.137元

3.7 QVQ

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qvq-72b-preview 12元 36元

3.8 Qwen-Omni

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 文本 输入单价(每百万Token) 音频 输入单价(每百万Token) 图片/视频 输入单价(每百万Token) 文本 > 仅纯文本输入 输出单价(每百万Token) 文本 > 多模态输入 输出单价(每百万Token) 文本+音频 > 仅音频计费 输出单价(每百万Token)
qwen2.5-omni-7b 0.6元 38元 2元 2.4元 6元 76元

2. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 文本 输入单价(每百万Token) 音频 输入单价(每百万Token) 图片/视频 输入单价(每百万Token) 文本 > 仅纯文本输入 输出单价(每百万Token) 文本 > 多模态输入 输出单价(每百万Token) 文本+音频 > 仅音频计费 输出单价(每百万Token)
qwen2.5-omni-7b 0.734元 49.613元 2.055元 2.936元 6.165元 99.153元

3.9 Qwen3-Omni-Captioner

计费规则:按输入Token和输出Token计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qwen3-omni-30b-a3b-captioner 15.8元 12.7元

2. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qwen3-omni-30b-a3b-captioner 27.962元 22.458元

3.10 Qwen-VL

1.中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 模式 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3-vl-235b-a22b-thinking 仅思考模式 2元 20元
qwen3-vl-235b-a22b-instruct 仅非思考模式 2元 8元
qwen3-vl-32b-thinking 仅思考模式 2元 20元
qwen3-vl-32b-instruct 仅非思考模式 2元 8元
qwen3-vl-30b-a3b-thinking 仅思考模式 0.75元 7.5元
qwen3-vl-30b-a3b-instruct 仅非思考模式 0.75元 3元
qwen3-vl-8b-thinking 仅思考模式 0.5元 5元
qwen3-vl-8b-instruct 仅非思考模式 0.5元 2元

更多模型

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qwen2.5-vl-72b-instruct 16元 48元
qwen2.5-vl-32b-instruct 8元 24元
qwen2.5-vl-7b-instruct 2元 5元
qwen2.5-vl-3b-instruct 1.2元 3.6元

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

模型名称 模式 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3-vl-235b-a22b-thinking 仅思考模式 2元 20元
qwen3-vl-235b-a22b-instruct 仅非思考模式 2元 8元
qwen3-vl-32b-thinking 仅思考模式 1.174元 4.697元
qwen3-vl-32b-instruct 仅非思考模式 1.174元 4.697元
qwen3-vl-30b-a3b-thinking 仅思考模式 0.75元 7.5元
qwen3-vl-30b-a3b-instruct 仅非思考模式 0.75元 3元
qwen3-vl-8b-thinking 仅思考模式 0.5元 5元
qwen3-vl-8b-instruct 仅非思考模式 0.5元 2元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 模式 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
qwen3-vl-235b-a22b-thinking 仅思考模式 2.936元 29.357元
qwen3-vl-235b-a22b-instruct 仅非思考模式 2.936元 11.743元
qwen3-vl-32b-thinking 仅思考模式 1.174元 4.697元
qwen3-vl-32b-instruct 仅非思考模式 1.174元 4.697元
qwen3-vl-30b-a3b-thinking 仅思考模式 1.468元 17.614元
qwen3-vl-30b-a3b-instruct 仅非思考模式 1.468元 5.871元
qwen3-vl-8b-thinking 仅思考模式 1.321元 15.412元
qwen3-vl-8b-instruct 仅非思考模式 1.321元 5.137元

3.12 Qwen-Math

模型名称 输入单价(每百万Token) 输出单价(每百万Token)
qwen2.5-math-72b-instruct 4元 12元
qwen2.5-math-7b-instruct 1元 2元

3.13 Qwen-Coder

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token)
qwen3-coder-next 0<Token≤32K 1元 4元
qwen3-coder-next 32K<Token≤128K 1.5元 6元
qwen3-coder-next 128K<Token≤256K 2.5元 10元
qwen3-coder-480b-a35b-instruct 0<Token≤32K 6元 24元
qwen3-coder-480b-a35b-instruct 32K<Token≤128K 9元 36元
qwen3-coder-480b-a35b-instruct 128K<Token≤200K 15元 60元
qwen3-coder-30b-a3b-instruct 0<Token≤32K 1.5元 6元
qwen3-coder-30b-a3b-instruct 32K<Token≤128K 2.25元 9元
qwen3-coder-30b-a3b-instruct 128K<Token≤200K 3.75元 15元
qwen2.5-coder-32b-instruct 无阶梯计价 2元 6元
qwen2.5-coder-14b-instruct 无阶梯计价 2元 6元
qwen2.5-coder-7b-instruct 无阶梯计价 1元 2元

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

模型名称 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token)
qwen3-coder-480b-a35b-instruct 0<Token≤32K 6元 24元
qwen3-coder-480b-a35b-instruct 32K<Token≤128K 9元 36元
qwen3-coder-480b-a35b-instruct 128K<Token≤200K 15元 60元
qwen3-coder-30b-a3b-instruct 0<Token≤32K 1.5元 6元
qwen3-coder-30b-a3b-instruct 32K<Token≤128K 2.25元 9元
qwen3-coder-30b-a3b-instruct 128K<Token≤200K 3.75元 15元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token)
qwen3-coder-next 0<Token≤32K 2.202元 11.009元
qwen3-coder-next 32K<Token≤128K 3.67元 18.348元
qwen3-coder-next 128K<Token≤256K 5.871元 29.357元
qwen3-coder-480b-a35b-instruct 0<Token≤32K 11.009元 55.044元
qwen3-coder-480b-a35b-instruct 32K<Token≤128K 19.816元 99.08元
qwen3-coder-480b-a35b-instruct 128K<Token≤200K 33.027元 165.133元
qwen3-coder-30b-a3b-instruct 0<Token≤32K 3.303元 16.513元
qwen3-coder-30b-a3b-instruct 32K<Token≤128K 5.504元 27.522元
qwen3-coder-30b-a3b-instruct 128K<Token≤200K 8.807元 44.035元

4. 欧盟
服务部署范围为欧盟时,模型推理计算资源仅限于欧盟境内;静态数据存储于您所选的地域。该部署范围支持的地域:德国(法兰克福)。

模型名称 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token)
qwen3-coder-next 0<Token≤32K 2.248元 11.241元
qwen3-coder-next 32K<Token≤128K 3.747元 18.736元
qwen3-coder-next 128K<Token≤256K 5.995元 29.977元

4、文本生成-第三方模型

4.1 DeepSeek

计费规则:按输入Token和输出Token计费。
影响计费的因素:若模型支持Batch调用,其输入和输出Token单价均按实时推理价格的50%计费。

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
deepseek-v4-pro > 上下文缓存享有折扣 12元 24元
deepseek-v4-flash > 上下文缓存享有折扣 1元 2元
deepseek-v3.2 > 上下文缓存享有折扣 2元 3元
deepseek-v3.2-exp 2元 3元
deepseek-v3.1 4元 12元
deepseek-r1 > Batch调用半价 4元 16元
deepseek-r1-0528 4元 16元
deepseek-v3 > Batch调用半价 2元 8元
deepseek-r1-distill-qwen-1.5b 限时免费 限时免费
deepseek-r1-distill-qwen-7b 0.5元 1元
deepseek-r1-distill-qwen-14b 1元 3元
deepseek-r1-distill-qwen-32b 2元 6元
deepseek-r1-distill-llama-8b 限时免费 限时免费

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

模型名称 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
deepseek-v4-pro > 上下文缓存享有折扣 12元 24元
deepseek-v4-flash > 上下文缓存享有折扣 1元 2元

3. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
deepseek-v3.2 > 上下文缓存享有折扣 4.272元 12.815元

4.2 DeepSeek-硅基流动

说明:服务部署范围仅支持中国内地。

模型名称 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
siliconflow/deepseek-v3.2 2元 3元
siliconflow/deepseek-v3.1-terminus 4元 12元
siliconflow/deepseek-r1-0528 4元 16元
siliconflow/deepseek-v3-0324 2元 8元

4.3 DeepSeek-快手万擎

模型名称 输入单价(每百万Token) 输出单价(每百万Token) > 思维链+回答
vanchin/deepseek-v3.2-think > 上下文缓存享有折扣 2元 3元
vanchin/deepseek-v3.1-terminus > 上下文缓存享有折扣 4元 12元
vanchin/deepseek-r1 > 上下文缓存享有折扣 4元 16元
vanchin/deepseek-v3 > 上下文缓存享有折扣 2元 8元
vanchin/deepseek-ocr 0.216元 0.216元

4.4 Kimi

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 模式 输入单价(每百万Token) 输出单价(每百万Token)
kimi-k2.6 非思考和思考模式 6.5元 27元
kimi-k2.5 非思考和思考模式 4元 21元
kimi-k2-thinking 仅思考模式 4元 16元
Moonshot-Kimi-K2-Instruct 非思考模式 4元 16元

2. 全球
服务部署范围为全球时,模型推理计算资源在全球范围内动态调度;静态数据存储于您所选的地域。该部署范围支持的地域:美国(弗吉尼亚)、德国(法兰克福)。

模型名称 模式 输入单价(每百万Token) 输出单价(每百万Token)
kimi-k2.5 非思考和思考模式 4元 21元

4.5 Kimi-月之暗面

模型名称 输入单价(每百万Token) 输出单价(每百万Token) > 思维链和回答
kimi/kimi-k2.6 > 上下文缓存享有折扣 6.5元 27元
kimi/kimi-k2.5 > 上下文缓存享有折扣 4元 21元

4.6 GLM

模型名称 模式 单次请求的输入Token数 输入单价(每百万Token) 输出单价(每百万Token) > 思维链和回答
glm-5.1 非思考和思考模式 0<Token≤32K 6元 24元
glm-5.1 非思考和思考模式 32K<Token≤200K 8元 28元
glm-5 非思考和思考模式 0<Token≤32K 4元 18元
glm-5 非思考和思考模式 32K<Token≤198K 6元 22元
glm-4.7 非思考和思考模式 0<Token≤32K 3元 14元
glm-4.7 非思考和思考模式 32K<Token≤166K 4元 16元
glm-4.6 非思考和思考模式 0<Token≤32K 3元 14元
glm-4.6 非思考和思考模式 32K<Token≤166K 4元 16元
glm-4.5 非思考和思考模式 0<Token≤32K 3元 14元
glm-4.5 非思考和思考模式 32K<Token≤96K 4元 16元
glm-4.5-air 非思考和思考模式 0<Token≤32K 0.8元 6元
glm-4.5-air 非思考和思考模式 32K<Token≤96K 1.2元 8元

4.7 MiniMax

模型名称 模式 输入单价(每百万Token) 输出单价(每百万Token) > 思维链和回答
MiniMax-M2.5 仅思考模式 2.1元 8.4元
MiniMax-M2.1 仅思考模式 2.1元 8.4元

4.8 MiniMax-稀宇科技

模型名称 模式 输入单价(每百万Token) 输出单价(每百万Token) > 思维链和回答
MiniMax/MiniMax-M2.7 > 上下文缓存享有折扣 仅思考模式 2.1元 8.4元
MiniMax/MiniMax-M2.5 > 上下文缓存享有折扣 仅思考模型 2.1元 8.4元
MiniMax/MiniMax-M2.1 > 上下文缓存享有折扣 仅思考模式 2.1元 8.4元

5、图像生成

计费规则:输入不计费,输出计费。输出按成功生成的 图像张数 计费。
计费公式:费用 = 图像单价 × 输出的图像张数

计费说明:

  • 费用与输出图像的分辨率、宽高比无关。
  • 请求失败不产生任何费用,也不消耗免费额度。

计费示例:部分图像生成失败
假设图像单价为 0.10元/张。若您调用接口请求生成 4 张图像,但实际仅成功返回 3 张图像的 URL,另 1 张生成失败,系统将仅对成功生成的图像进行计费。

  • 计费数量:3 张。
  • 费用计算:0.1 × 3 = 0.3元。

5.1 千问文生图

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 输出单价
qwen-image-2.0-pro 0.5元/张
qwen-image-2.0-pro-2026-04-22 0.5元/张
qwen-image-2.0-pro-2026-03-03 0.5元/张
qwen-image-2.0 0.2元/张
qwen-image-2.0-2026-03-03 0.2元/张
qwen-image-max 0.5元/张
qwen-image-max-2025-12-30 0.5元/张
qwen-image-plus 0.2元/张
qwen-image-plus-2026-01-09 0.2元/张
qwen-image 0.25元/张

2. 国际

模型名称 输出单价
qwen-image-2.0-pro 0.550443元/张
qwen-image-2.0-pro-2026-04-22 0.550443元/张
qwen-image-2.0-pro-2026-03-03 0.550443元/张
qwen-image-2.0 0.256873元/张
qwen-image-2.0-2026-03-03 0.256873元/张
qwen-image-max 0.550443元/张
qwen-image-max-2025-12-30 0.550443元/张
qwen-image-plus 0.220177元/张
qwen-image-plus-2026-01-09 0.220177元/张
qwen-image 0.256873元/张

5.2 千问图像编辑

1. 中国内地
服务部署范围为中国内地时,模型推理计算资源仅限于中国内地;静态数据存储于您所选的地域。该部署范围支持的地域:华北2(北京)。

模型名称 输出单价
qwen-image-2.0-pro 0.5元/张
qwen-image-2.0-pro-2026-04-22 0.5元/张
qwen-image-2.0-pro-2026-03-03 0.5元/张
qwen-image-2.0 0.2元/张
qwen-image-2.0-2026-03-03 0.2元/张
qwen-image-edit-max 0.5元/张
qwen-image-edit-max-2026-01-16 0.5元/张
qwen-image-edit-plus 0.2元/张
qwen-image-edit-plus-2025-12-15 0.2元/张
qwen-image-edit-plus-2025-10-30 0.2元/张
qwen-image-edit 0.3元/张

2. 国际

模型名称 输出单价
qwen-image-2.0-pro 0.550443元/张
qwen-image-2.0-pro-2026-04-22 0.550443元/张
qwen-image-2.0-pro-2026-03-03 0.550443元/张
qwen-image-2.0 0.256873元/张
qwen-image-2.0-2026-03-03 0.256873元/张
qwen-image-edit-max 0.550443元/张
qwen-image-edit-max-2026-01-16 0.550443元/张
qwen-image-edit-plus 0.220177元/张
qwen-image-edit-plus-2025-12-15 0.220177元/张
qwen-image-edit-plus-2025-10-30 0.220177元/张
qwen-image-edit 0.330266元/张

5.3 千问图像翻译

模型名称 输出单价
qwen-mt-image 0.003元/张

5.4 Z-Image

1. 中国内地

模型名称 输出单价
z-image-turbo 关闭提示词改写(prompt_extend=false):0.1元/张 开启提示词改写(prompt_extend=true):0.2元/张

2. 国际
服务部署范围为国际时,模型推理计算资源在全球范围内动态调度(不含中国内地);静态数据存储于您所选的地域。该部署范围支持的地域:新加坡。

模型名称 输出单价
z-image-turbo 关闭提示词改写(prompt_extend=false):0.110089元/张 开启提示词改写(prompt_extend=true):0.220177元/张

5.5 万相文生图

1. 中国内地

模型名称 输出单价
wan2.6-t2i 0.20元/张
wan2.5-t2i-preview 0.20元/张
wan2.2-t2i-plus 0.20元/张
wan2.2-t2i-flash 0.14元/张
wanx2.1-t2i-plus 0.20元/张
wanx2.1-t2i-turbo 0.14元/张
wanx2.0-t2i-turbo 0.04元/张
wanx-v1 0.16元/张

2. 全球

模型名称 输出单价
wan2.6-t2i 0.20元/张

3. 国际

模型名称 输出单价
wan2.6-t2i 0.220177元/张
wan2.5-t2i-preview 0.220177元/张
wan2.2-t2i-plus 0.366962元/张
wan2.2-t2i-flash 0.183481元/张
wan2.1-t2i-plus 0.366962元/张
wan2.1-t2i-turbo 0.183481元/张

5.6 万相图像生成与编辑

1. 中国内地

模型名称 输出单价
wan2.7-image-pro 0.50元/张
wan2.7-image 0.20元/张
wan2.6-image 0.20元/张

2. 全球

模型名称 输出单价
wan2.6-image 0.20元/张

3. 国际

模型名称 输出单价
wan2.7-image-pro 0.562065元/张
wan2.7-image 0.220177元/张
wan2.6-image 0.220177元/张

5.7 万相通用图像编辑

1. 中国内地

模型名称 输出单价
wan2.5-i2i-preview 0.20元/张 50张
wanx2.1-imageedit 0.14元/张 500张

2. 国际

模型名称 输出单价
wan2.5-i2i-preview 0.220177元/张

5.8 万相涂鸦作画

模型名称 输出单价
wanx-sketch-to-image-lite 0.06元/张

5.9 万相图像局部重绘

模型名称 输出单价
wanx-x-painting 目前仅供免费体验。 > 免费额度用完后不可调用

5.10 人像风格重绘

模型名称 输出单价
wanx-style-repaint-v1 0.12元/张

5.11 图像背景生成

模型名称 输出单价
wanx-background-generation-v2 0.08元/张

5.12 图像画面扩展

模型名称 输出单价
image-out-painting 0.18元/张

5.13 人物实例分割

模型名称 输出单价
image-instance-segmentation 目前仅供免费体验。 > 免费额度用完后不可调用。

5.14 图像擦除补全

模型名称 输出单价
image-erase-completion 目前仅供免费体验。 > 免费额度用完后不可调用

5.15 虚拟模特

模型名称 输出单价
wanx-virtualmodel 目前仅供免费体验。 > 免费额度用完后不可调用
virtualmodel-v2

5.16 鞋靴模特

模型名称 输出单价
shoemodel-v1 目前仅供免费体验。 > 免费额度用完后不可调用。

5.17 创意海报生成

模型名称 输出单价
wanx-poster-generation-v1 目前仅供免费体验。 > 免费额度用完后不可调用

5.18 人物写真生成-FaceChain

  • facechain-facedetect:限时免费。
  • facechain-finetune:按训练次数计费,请求失败不计费。
  • facechain-generation:输入不计费,输出计费。
模型服务 模型名称 单价
人物图像检测 facechain-facedetect 限时免费
人物形象训练 facechain-finetune 2.5元/次
人物写真生成 facechain-generation 0.18元/张

5.19 创意文字生成-WordArt锦书

模型服务 模型名称 输出单价
文字纹理生成 wordart-texture 0.08元/张
文字变形 wordart-semantic 0.24元/张

更多模型调用计费可通过百炼控制台查询。

2026年截至目前,阿里云的AI产品优惠权益还有阿里云百炼 Token Plan,提供多档位套餐,包月预算可控;Qwen3.6 发布,全模型通享 4.5 折;旗舰模型入门首选,适配千行百业 AI 落地;AI 创新场景应用,开箱即用,适配千行百业 AI 落地;阿里云百炼按量达标返券,先用后返,最高返200元;阿里云 JVS Claw 39元起,一键接入 OpenClaw;先进弹性的 AI 算力,高性价比 AI 算力,快速部署千问大模型等其他优惠,详情可通过阿里云权益中心了解:https://www.aliyun.com/benefit

AI产品权益2026.png

除了AI产品优惠权益之外,云服务器相关活动也是用户非常关心的,在阿里云2026年的活动中,参与活动的云服务器主要有经济型e实例2核2G3M带宽40G ESSD Entry云盘99元1年;通用算力型u1实例2核4G5M带宽80G ESSD云盘企业专享199元1年,轻量云服务器2核2G200M峰值带宽38元一年、2核4G200M峰值带宽9.9元1个月和199元一年,以及通用算力型u2a实例2.5折起,通用算力型u2i实例3折,九代c9i、g9i、r9i等实例1年付6.4折起等其他实例规格的云服务器。更多云产品配置和实时价格可通过阿里云的活动中心:https://t.aliyun.com/U/3vGTeD 查询当前参与活动的云服务器和其他云产品配置的价格信息以及优惠券等信息,如下图所示:

活动中心展示.png

综上所述:阿里云百炼凭借全链路模型调优部署能力、灵活的Agent构建工具、严谨的安全合规体系以及成熟的商业生态,已成为企业级大模型落地的核心平台。从通义千问系列到DeepSeek等第三方模型的无缝接入,从7000万免费tokens的新人权益到最低0.04元/张的图像生成定价,百炼真正实现了"低门槛体验、高性价比落地"。无论是智能客服、内容创作还是行业专属Agent开发,开发者均可依托其标准化API与可视化工具快速构建应用,大幅缩短从创意到产品的距离,加速AI商业化进程。

相关文章
|
22天前
|
人工智能 IDE API
阿里云百炼Coding Plan产品简介:支持模型、收费标准及购买和使用常见问题解答
阿里云百炼Coding Plan是面向开发者和团队的AI编程订阅服务,采用固定月费模式,Pro套餐200元/月提供9万次调用额度,整合千问、Kimi、GLM、MiniMax等顶级模型,全面兼容Claude Code、OpenClaw、Cursor等主流编程工具。额度采用5小时滚动恢复、每周及每月定期重置机制,兼顾开发连续性与成本可控性。其折算成本远低于按量计费,并通过多层级额度设计和华北2地域绑定有效防范欠费风险。适合日常代码生成、智能体开发及IDE插件集成等场景,是开发者以可预期预算拥抱AI编程的高性价比选择。
阿里云百炼Coding Plan产品简介:支持模型、收费标准及购买和使用常见问题解答
|
23天前
|
存储 缓存 人工智能
阿里云百炼大模型服务平台是什么?最新模型调用收费标准、新人免费额度以及常见问题解答
阿里云百炼大模型服务平台是集成千问及第三方模型的一站式开发与应用平台,提供模型调用、调优、部署及应用构建等全链路服务。其优势包括丰富的模型生态、全链路开发工具、企业级安全合规及灵活计费模式,支持低/零代码开发,助力企业与开发者快速落地AI应用。2026年,新用户开通即享超7000万免费tokens,有效期90天,仅限模型推理调用,旨在降低初期成本,助力用户快速构建AI应用。
|
12天前
|
人工智能 自然语言处理 API
阿里云百炼Token Plan订阅方案:支持多模型灵活切换,兼容主流AI工具,多档位套餐,包月预算可控
阿里云百炼Token Plan团队版是面向企业及开发者的多模态AI订阅服务,采用Credits统一计量,支持Qwen3.6、Wan2.7、GLM-5、DeepSeek-V4、Kimi K2.6等十余款主流模型,兼容Qwen Code、Claude Code、OpenClaw等热门AI工具。提供标准版(198/月)、高级版(698/月)、尊享版(1,398/月)三档坐席,配套共享用量包(5,000/62.5万Credits)供弹性补额。计费按Token实际消耗抵扣,无频次限制,承诺不使用用户数据训练模型,多租户隔离保障稳定运行,适用于团队协作、开发办公等场景。
|
17天前
|
人工智能 编解码 运维
告别“氛围编程”:基于 Harness 治理和 SDD 的团队级 AI 研发范式演进与实践
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。
告别“氛围编程”:基于 Harness 治理和 SDD 的团队级 AI 研发范式演进与实践
|
21天前
|
人工智能 监控 算法
AI智能体的开发及上线
本文详解AI智能体从0到1的标准化开发与合规上线闭环:涵盖架构设计(大脑/规划/记忆/工具/感知)、低代码/代码级开发路径、RAG知识增强、算法备案、内容安全与数据脱敏等2026最新监管要求,助力高效、合规落地。
|
12天前
|
人工智能 开发工具 开发者
终端里跑 3D 老鼠,桌面窗口成摆锤;AI 大佬新公司估值百亿起
上周技术圈的信息挺杂,但有几条线索值得放在一起看。 一边,AI 产品继续往具体工作流里走:Claude Code 开始支持 Agent View,OpenAI 把 Codex 带到移动端;另一边,开发者社区继续整活:有人给 Claude Code 做实体旋钮,有人做 Claude 用量桌面仪表盘,还有人把终端做成能显示 3D 老鼠的玩具。
145 1
终端里跑 3D 老鼠,桌面窗口成摆锤;AI 大佬新公司估值百亿起
|
19天前
|
人工智能 自然语言处理 文字识别
阿里云AI产品免费试用活动介绍:超30款AI产品和7000万大模型 tokens 免费体验
阿里云2026年面向产品新用户推出的AI免费试用活动,提供超30款AI产品和7000万大模型tokens免费体验,零成本构建AI应用。核心权益包括:通义千问3系列、Qwen3-Coder、万相-Image等150+款大模型免费使用,100+Agent模板开箱即用,PAI平台一键部署大模型,以及NLP自然语言处理、视觉智能等10余款产品最长12个月免费试用。
|
2月前
|
人工智能 JSON 前端开发
如何把AI内容导出Html 技术可行性分析
AI内容导出为HTML技术成熟、操作简单,支持ChatGPT/Grok/Claude等主流平台。方法多样:一键浏览器保存、专用扩展(如Elegant Exporter)、Markdown转HTML、JS/Python脚本自动化,甚至AI自动生成。本地处理、隐私安全、跨平台兼容,零基础几分钟即可上手。(239字)
|
6天前
|
人工智能 自然语言处理 监控
阿里云百炼千问Qwen3.7-Max全面解析:核心能力、技术特性与订阅使用全指南
在智能应用与AI智能体飞速发展的2026年,大模型的推理能力、长文本处理、多模态理解以及工具调用能力,已经成为企业开发、科研创作、自动化办公的核心刚需。阿里云百炼正式推出**Qwen3.7-Max**旗舰大模型,作为通义千问系列综合实力最强的版本,直接对标国际主流高端闭源大模型,专为复杂逻辑推理、长周期自主任务、多模态分析、企业级业务场景打造。
517 3

热门文章

最新文章