阿里云百炼已上线超强推理开源模型QwQ-32B,尺寸更小,性能比肩DeepSeek满血版

本文涉及的产品
通义法睿合同智能审查,1个月8份合同免费体验
简介: 通义千问团队推出了320亿参数的QwQ-32B模型,通过大规模强化学习和多阶段训练,在数学、编程及通用能力上达到或超越了DeepSeek-R1等先进模型。QwQ-32B模型已在阿里云百炼上线,支持API调用,用户可通过官方文档了解详细使用方法。未来,团队将继续探索智能体与RL集成,推动人工通用智能的发展。

最近的研究表明,强化学习可以显着提高模型的推理能力。例如,DeepSeek-R1通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。


这一次,主要探讨了大规模强化学习(RL)对大语言模型的智能提升作用,同时推出了我们最新的推理模型 QwQ-32B。这是一款拥有 320 亿参数的模型,其性能可与配备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。


这一成果突显了将强化学习评估经过大规模预训练的强大基础模型的有效性。此外,通义千问团队仍在推理模型中集成了与智能体相关的能力,可以在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。


希望我们的一点努力能够证明强大的基础模型大规模强化学习也许是一条通向通用人工智能的实用之路。

QwQ-32B模型详情

基于 Qwen2.5-32B 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。目前已在阿里云百炼上线,可以直接通过api进行调用。使用方法可参考:深度思考(QwQ)文档。

模型规格:

模型名称

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwq-32b

131,072

98,304

32,768

8,192

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万 Token

有效期:阿里云百炼开通后180天内


QwQ-32B 模型效果

QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与领先其他模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

image.png

在数学能力的 AIME24 体育集上,以及评估代码能力的 LiveCodeBench 中,千问 QwQ-32B 测试表现与 DeepSeek-R1 相当,远胜于 o1-mini 及相同尺寸的 R1 后续模型;由 Meta 首席科学家杨立昆领衔的“最难 LLMs 体育排行榜” LiveBench、谷歌等提出的指令遵循能力IFEval体育集、由加州大学伯克利分校等提出的评估调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek- R1。

系统强化学习

通义千问团队在冷启动的基础上开展了大规模的强化训练。在初始阶段,特别针对数学和编程任务进行了强化学习。与依赖传统的奖励模型(奖励模型)不同,通过生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码成功,通过测试来提供代码是否提供反馈。


通义千问团队发现在强化学习扩展过程中,随着训练轮次的推进,这两个领域中的性能均表现出持续的提升。


在第一阶段的强化学习之后,增加了另一个针对通用能力的强化学习。该阶段使用通用奖励模型和基于一些规则的验证器进行训练。发现,通过少量步骤的通用强化学习,可以提升其他通用能力,同时在数学和编程任务上的性能没有显着下降。

通过API使用QwQ-32B

下面展示了一段简短的示例代码,说明如何通过 API 使用 QwQ-32B。


from openai import OpenAI
import os

# Initialize OpenAI client
client = OpenAI(
    # If the environment variable is not configured, replace with your API Key: api_key="sk-xxx"
    # How to get an API Key:https://help.aliyun.com/zh/model-studio/developer-reference/get-api-key
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

reasoning_content = ""
content = ""

is_answering = False

completion = client.chat.completions.create(
    model="qwq-32b",
    messages=[
        {"role": "user", "content": "Which is larger, 9.9 or 9.11?"}
    ],
    stream=True,
    # Uncomment the following line to return token usage in the last chunk
    # stream_options={
    #     "include_usage": True
    # }
)

print("\n" + "=" * 20 + "reasoning content" + "=" * 20 + "\n")

for chunk in completion:
    # If chunk.choices is empty, print usage
    if not chunk.choices:
        print("\nUsage:")
        print(chunk.usage)
    else:
        delta = chunk.choices[0].delta
        # Print reasoning content
        if hasattr(delta, 'reasoning_content') and delta.reasoning_content is not None:
            print(delta.reasoning_content, end='', flush=True)
            reasoning_content += delta.reasoning_content
        else:
            if delta.content != "" and is_answering is False:
                print("\n" + "=" * 20 + "content" + "=" * 20 + "\n")
                is_answering = True
            # Print content
            print(delta.content, end='', flush=True)
            content += delta.content

未来

这是Qwen在大规模强化强化学习(RL)以增强推理能力方面的第一步。通过这个旅程,不仅见证了扩展强化学习的巨大潜力,还认识了预训练语言模型中尚未开发的可能性。

在致力于开发下一代Qwen的过程中,通义千问团队将更强大的基础模型与依托规模化计算资源的RL相结合,将更加接近实现人工通用智能(AGI)。此外,通义千问团队正在积极探索将智能体与RL集成,以实现长时推理,目标是通过推理时间扩展来释放期待的智能。


🚀需要了解阿里云百炼可点击以下链接:

👉阿里云百炼详情了解可点击此官网链接:阿里云百炼官网介绍

👉阿里云百炼控制台页面可点击此链接直接进入阿里云百炼控制台


欢迎大家在评论区交流探讨调用QwQ-32B模型的体验与经验 。如果您在体验过程中有遇到什么问题需要我们解答,可以在评论区中留言探讨或是加入我们的官方支持群(群号:77600022533)进行交流反馈!

image.png


相关实践学习
如何快速创建插件agent
阿里云百炼应用基于Assistant API技术架构,结合大语言模型(LLM)的推理、知识检索增强、插件调度等能力,构建应对各类复杂场景任务的场景应用。通过集成化、直观易用的产品界面,为开发者提供了丰富的应用配置选项,包括大型语言模型(LLM)选择、Pro
相关文章
|
8天前
|
人工智能 API
【MCP教程系列】上阿里云百炼,5分钟轻松搭建会分析,能推理,还会自动写文档的Agent
本教程介绍如何在阿里云百炼平台上,用5分钟快速搭建一个能分析、推理并自动写文档的智能体(Agent)。通过零代码方式,结合Flomo MCP应用实现AI分析与自动归档功能。主要步骤包括:开通Flomo服务、获取API KEY、创建智能体并添加MCP服务。完成后,Agent可自动提取关键内容并归档至Flomo。附有详细操作视频和效果演示,新手友好,简单易上手。
【MCP教程系列】上阿里云百炼,5分钟轻松搭建会分析,能推理,还会自动写文档的Agent
|
26天前
|
人工智能 JavaScript 前端开发
一个支持阿里云百炼平台DeepSeek R1大模型(智能体)的Wordpress插件,AI Agent or Chatbot.
这是一个将阿里云DeepSeek AI服务集成到WordPress的聊天机器人插件,支持多轮对话、上下文记忆和自定义界面等功能。用户可通过短代码轻松添加到页面,并支持多种配置选项以满足不同需求。项目采用MIT协议授权,代码仓位于GitHub与Gitee。开发者Chi Leung为长期境外工作,代码注释以英文为主。适合需要在WordPress网站中快速部署AI助手的用户使用。
|
1月前
|
机器学习/深度学习 人工智能 NoSQL
JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型
随着大模型的越来越盛行,现在很多企业开始接入大模型的接口,今天我从java开发角度来写一个demo的示例,用于接入DeepSeek大模型,国内的大模型有很多的接入渠道,今天主要介绍下阿里云的百炼模型,因为这个模型是免费的,只要注册一个账户,就会免费送百万的token进行学习,今天就从一个简单的可以执行的示例开始进行介绍,希望可以分享给各位正在学习的同学们。
234 3
JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型
|
1月前
|
人工智能 JavaScript 前端开发
【最佳实践系列】AI程序员让我变成全栈:基于阿里云百炼DeepSeek的跨语言公告系统实战
本文介绍了如何在Java开发中通过跨语言编程,利用阿里云百炼服务平台的DeepSeek大模型生成公告内容,并将其嵌入前端页面。
|
1月前
|
弹性计算 API Docker
在ECS上使用百炼部署满血版DeepSeek R1
本文为您介绍如何在ECS实例上部署Open WebUI,并通过大模型服务平台百炼API调用DeepSeek-R1模型推理服务。帮助您快速体验满血版DeepSeek-R1模型。
|
2月前
|
人工智能 Java 语音技术
零基础上手百炼语音AI模型|Github示例工程介绍
零基础上手百炼语音AI模型|Github示例工程介绍
|
1月前
|
人工智能 负载均衡 数据可视化
评测|零门槛,即刻拥有DeepSeek-R1满血版 | 阿里云百炼调用DeepSeek
本方案以 DeepSeek-R1 满血版为例进行演示,通过百炼模型服务进行 DeepSeek 开源模型调用,可以根据实际需求选择其他参数规模的 DeepSeek 模型。
71 0
|
1月前
|
存储 人工智能 Cloud Native
函数计算×百炼新春活动正式上线!三步赢取蛇年精美好礼
函数计算×百炼新春活动正式上线!三步赢取蛇年精美好礼
|
1月前
|
人工智能 运维 数据处理
单机部署DeepSeek满血版(BF16精度)和Qwen,阿里云百炼专属版AI训推一体机重磅发布!
单机部署DeepSeek满血版(BF16精度)和Qwen,阿里云百炼专属版AI训推一体机重磅发布!
|
1月前
|
机器学习/深度学习 人工智能 测试技术
【自定义插件系列】0基础在阿里云百炼上玩转大模型自定义插件
本文介绍了如何在阿里云百炼平台上创建大模型自定义插件,以增强AI模型功能或适配特定需求。通过编程接口(API)或框架设计外部扩展模块,开发者可在不修改底层参数的情况下扩展模型能力。文章以万相文生图V2版模型为例,详细说明了创建自定义插件的五个步骤:新建插件、创建工具、测试工具、复制第二个工具及最终测试发布。同时,提供了官方文档参考链接和具体参数设置指导,帮助用户轻松实现插件开发与应用,推动AI技术在各行业的广泛应用。

相关产品

  • 大模型服务平台百炼
  • 下一篇
    oss创建bucket