最近的研究表明,强化学习可以显着提高模型的推理能力。例如,DeepSeek-R1通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。
这一次,主要探讨了大规模强化学习(RL)对大语言模型的智能提升作用,同时推出了我们最新的推理模型 QwQ-32B。这是一款拥有 320 亿参数的模型,其性能可与配备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。
这一成果突显了将强化学习评估经过大规模预训练的强大基础模型的有效性。此外,通义千问团队仍在推理模型中集成了与智能体相关的能力,可以在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
希望我们的一点努力能够证明强大的基础模型大规模强化学习也许是一条通向通用人工智能的实用之路。
QwQ-32B模型详情
基于 Qwen2.5-32B 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。目前已在阿里云百炼上线,可以直接通过api进行调用。使用方法可参考:深度思考(QwQ)文档。
模型规格:
模型名称 |
上下文长度 |
最大输入 |
最大思维链长度 |
最大回复长度 |
输入成本 |
输出成本 |
免费额度 |
(Token数) |
(每千Token) |
||||||
qwq-32b |
131,072 |
98,304 |
32,768 |
8,192 |
目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 |
100万 Token 有效期:百炼开通后180天内 |
QwQ-32B 模型效果
QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与领先其他模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。
在数学能力的 AIME24 体育集上,以及评估代码能力的 LiveCodeBench 中,千问 QwQ-32B 测试表现与 DeepSeek-R1 相当,远胜于 o1-mini 及相同尺寸的 R1 后续模型;由 Meta 首席科学家杨立昆领衔的“最难 LLMs 体育排行榜” LiveBench、谷歌等提出的指令遵循能力IFEval体育集、由加州大学伯克利分校等提出的评估调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek- R1。
系统强化学习
通义千问团队在冷启动的基础上开展了大规模的强化训练。在初始阶段,特别针对数学和编程任务进行了强化学习。与依赖传统的奖励模型(奖励模型)不同,通过生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码成功,通过测试来提供代码是否提供反馈。
通义千问团队发现在强化学习扩展过程中,随着训练轮次的推进,这两个领域中的性能均表现出持续的提升。
在第一阶段的强化学习之后,增加了另一个针对通用能力的强化学习。该阶段使用通用奖励模型和基于一些规则的验证器进行训练。发现,通过少量步骤的通用强化学习,可以提升其他通用能力,同时在数学和编程任务上的性能没有显着下降。
通过API使用QwQ-32B
下面展示了一段简短的示例代码,说明如何通过 API 使用 QwQ-32B。
from openai import OpenAI import os # Initialize OpenAI client client = OpenAI( # If the environment variable is not configured, replace with your API Key: api_key="sk-xxx" # How to get an API Key:https://help.aliyun.com/zh/model-studio/developer-reference/get-api-key api_key=os.getenv("DASHSCOPE_API_KEY"), base_url="https://dashscope.aliyuncs.com/compatible-mode/v1" ) reasoning_content = "" content = "" is_answering = False completion = client.chat.completions.create( model="qwq-32b", messages=[ {"role": "user", "content": "Which is larger, 9.9 or 9.11?"} ], stream=True, # Uncomment the following line to return token usage in the last chunk # stream_options={ # "include_usage": True # } ) print("\n" + "=" * 20 + "reasoning content" + "=" * 20 + "\n") for chunk in completion: # If chunk.choices is empty, print usage if not chunk.choices: print("\nUsage:") print(chunk.usage) else: delta = chunk.choices[0].delta # Print reasoning content if hasattr(delta, 'reasoning_content') and delta.reasoning_content is not None: print(delta.reasoning_content, end='', flush=True) reasoning_content += delta.reasoning_content else: if delta.content != "" and is_answering is False: print("\n" + "=" * 20 + "content" + "=" * 20 + "\n") is_answering = True # Print content print(delta.content, end='', flush=True) content += delta.content
未来
这是Qwen在大规模强化强化学习(RL)以增强推理能力方面的第一步。通过这个旅程,不仅见证了扩展强化学习的巨大潜力,还认识了预训练语言模型中尚未开发的可能性。
在致力于开发下一代Qwen的过程中,通义千问团队将更强大的基础模型与依托规模化计算资源的RL相结合,将更加接近实现人工通用智能(AGI)。此外,通义千问团队正在积极探索将智能体与RL集成,以实现长时推理,目标是通过推理时间扩展来释放期待的智能。
🚀需要了解阿里云百炼可点击以下链接:
👉阿里云百炼详情了解可点击此官网链接:阿里云百炼官网介绍
👉阿里云百炼控制台页面可点击此链接直接进入:阿里云百炼控制台
欢迎大家在评论区交流探讨调用QwQ-32B模型的体验与经验 。如果您在体验过程中有遇到什么问题需要我们解答,可以在评论区中留言探讨或是加入我们的官方支持群(群号:77600022533)进行交流反馈!