微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,1000CU*H 3个月
简介: Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。

Microsoft Research最近发布的rStar2-Agent展示了一个令人瞩目的结果:一个仅有14B参数的模型在AIME24数学基准测试上达到了80.6%的准确率,超越了671B参数的DeepSeek-R1(79.8%)。这不是简单的参数效率提升,而是AI推理的进步。

过去几年,大语言模型的发展主要依赖Chain-of-Thought(CoT)提示技术,让模型"展示工作过程"。这催生了"思考更久"的训练范式——通过更长的推理链条来提升性能。OpenAI的o系列和DeepSeek-R1都证明了这条路径在强化学习加持下的有效性。

但这个方向存在明显的天花板。在竞赛数学这类真正困难的问题上,长CoT模型容易犯细微错误,缺乏灵活调整策略的能力,即使发现错误也难以有效自我纠正。就像一个学生能写出100步解题过程,却没有足够的理解力意识到第三步就错了。

rStar2-Agent的突破在于从"思考更久"转向"思考更聪明"。这个模型不仅能使用Python工具进行计算验证,更重要的是学会了如何高效地探索解题路径、自我纠错,并在工具使用中保持简洁性。

rStar2-Agent训练LLMs在专用执行环境中原生使用Python编程工具,为复杂问题解决实现更高级和有效的推理。

三个技术创新的协同效应

rStar2-Agent的成功来自三个关键技术的有机结合。首先是超高效的RL基础设施,能够处理45,000个并发工具调用,平均延迟仅0.3秒,这为大规模智能体训练提供了技术保障。

其次是GRPO-RoC算法,这是整个系统的核心。传统强化学习在智能体环境中面临"环境噪声"问题——模型可能写出有bug的代码,经过多次错误尝试后偶然得到正确答案,系统却给予满分奖励,这会强化低效的解题习惯。

GRPO-RoC通过非对称过滤策略解决了这个问题。对于失败的尝试,算法保留随机样本让模型学习什么不该做。对于成功的尝试,算法则变得极其挑剔——只奖励那些工具使用错误最少、格式规范、推理清晰的高质量解答。这种策略迫使模型不仅要得到正确答案,还要以优雅高效的方式达成目标。

通过GRPO-RoC智能体强化学习训练,rStar2-Agent-14B在数学推理方面达到了与前沿LLMs相当的竞争力,同时使用显著更少的训练计算和更小的模型规模。

第三个创新是反直觉的训练策略。与其他推理模型在SFT阶段就加载大量复杂推理示例不同,rStar2-Agent采用"非推理冷启动"——初期只学习基础的指令遵循、JSON格式化和工具使用,把推理能力的培养完全留给强化学习阶段。这避免了模型过早固化冗长的推理模式。

GRPO-RoC可以在噪声环境中学会精准推理

要理解GRPO-RoC的精妙之处,需要先了解智能体强化学习的核心难题。比如说你在教数学,但给了学生一个时好时坏的计算器。学生不仅要解决数学问题,还要应对工具的不可靠性。当学生写出有语法错误的代码,得到报错信息,再次尝试时又出现逻辑错误,最后凭运气碰对答案——这时给予满分奖励,实际上是在强化混乱低效的解题流程。

传统RL方法试图为每种错误设计惩罚机制,但这容易被"钻空子"。GRPO-RoC采用了完全不同的思路:与其惩罚错误,不如严格筛选奖励对象。

具体机制是这样的:系统为每个问题生成32个解答尝试,然后执行非对称过滤。对于失败的尝试,保留随机样本供模型学习反面教材。对于成功的尝试算法会严格筛选,只保留那些工具调用错误最少、代码简洁、推理清晰的高质量解答。

在正确回答的轨迹中包含错误的工具调用比例。在传统的GRPO下,错误率最初下降但很快在显著水平上达到平台期。相比之下,论文的GRPO-RoC随着更多训练步骤继续减少工具相关错误。

这个策略的效果立竿见影。上图显示,传统GRPO方法下工具错误率很快进入平台期,而GRPO-RoC能持续降低错误率。模型不仅学会了解数学题,还在过程中成为更好的程序员和工具使用者。

分阶段训练:从工具使用到高效推理

训练策略同样体现了设计的巧思。整个过程分为两大阶段:非推理SFT和三步RL训练。

SFT阶段刻意避免复杂推理,专注于让模型掌握指令遵循、JSON格式化和基础工具使用。这个阶段产生的模型给出的都是简短回答,为后续的"简洁性约束"奠定基础。

RL训练分三步进行,每步都有明确的目标。第一步是8K token限制下的简洁训练,由于SFT阶段的铺垫,模型初期不会触及这个限制。但随着推理能力增强,开始碰到长度天花板,这迫使它寻找更高效的推理路径。第二步将限制放宽到12K tokens,让模型处理更复杂的问题。第三步专门训练最困难的17.3K问题(从原始42K中筛选),将模型推向性能极限。

多阶段强化学习训练期间的AIME24/AIME25准确性和平均训练响应长度,这个多面板图表显示了三个强化学习训练阶段的(a) AIME24分数,(b) AIME25分数,和(c)平均响应长度。说明了性能如何稳步攀升,而响应长度以受控的方式逐阶段增长。

整个训练过程仅用510步就完成,在64个MI300X GPU上跑了一周。这个效率相比那些需要数千GPU跑数月的项目来说相当惊人。

性能表现:更短的推理,更高的准确率

最终结果验证了"思考更聪明"的有效性。rStar2-Agent-14B不仅准确率更高,推理长度也显著更短。在AIME24和AIME25测试中,它的平均响应长度比DeepSeek-R1-Zero、QWQ-32B等模型短了数千个tokens。

rStar2-Agent-14B用显著更少的令牌实现有效推理,这个表格比较了rStar2-Agent-14B与DeepSeek-R1-Zero、QWQ-32B和官方Qwen3-14B在AIME24和AIME25上的平均响应长度(令牌数)。它清楚地显示rStar2-Agent的响应平均短了数千个令牌。

虽然RL训练完全基于数学问题,但在GPQA-Diamond科学推理基准上,模型表现从SFT后的42.1%跃升至60.9%。这说明模型学到的不是数学技巧,而是更根本的问题解决、自我纠错和工具辅助验证能力。

总结

rStar2-Agent的成功挑战了"大即是美"的传统观念,指向了一个更加多元化的AI生态。不过作者也指出了局限性。在510步达到性能峰值后,继续训练导致性能急剧下降。这表明强化学习可以充分挖掘基础模型的潜力,但无法创造原本不存在的推理能力,或者说14B参数模型有其固有的认知天花板。

这为AI发展提出了一个关键问题:下一步突破应该来自更大的基础模型,还是更精巧的智能体训练技术?从rStar2-Agent的经验看,后者可能是一条更具前景的路径。

这项工作的意义不仅在于具体的技术突破,更在于验证了智能体系统的巨大潜力。通过环境交互和工具使用,AI模型可以获得远超纯语言训练的认知能力。GRPO-RoC算法通过巧妙的奖励机制,让模型在"噪声环境"中学会了高质量推理。分阶段训练策略则证明了"先学工具再学推理"的有效性。

论文链接:https://www.arxiv.org/abs/2508.20722

目录
相关文章
|
21天前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
285 109
|
27天前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
319 2
|
1月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
337 23
|
4天前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
67 1
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
8天前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
|
8天前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
47 7
|
8天前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
26 0
粒子群算法模型深度解析与实战应用
|
8天前
|
机器学习/深度学习 运维 算法
基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点](选址定容)(Matlab代码实现)
基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点](选址定容)(Matlab代码实现)
|
15天前
通义千问Image模型使用指南
该表格展示了多个设计场景,包括模型选择、复制粘贴提示词、一键生图等步骤。每个步骤配有详细描述及示意图,呈现了不同主题如商业海报、IP主视觉、品牌包装、街拍风格等的设计构思与实现方式。
|
16天前
|
机器学习/深度学习 人工智能 测试技术
探索 Qwen2.5-Max 的智能:大规模 MoE 模型的飞跃
Qwen2.5-Max 是通义实验室推出的最先进MoE模型,在推理、知识和代码任务中表现卓越,已在超20万亿token上预训练,并通过SFT和RLHF优化。在多项基准测试中领先,如Arena-Hard达89.4,MMLU-Pro为76.1,性能超越DeepSeek V3、GPT-4o等模型,成为当前最佳开源模型。可通过Qwen Chat和API使用,适用于开发者、研究者及AI爱好者探索前沿AI能力。
138 2