Scaling Law 撞墙?复旦团队大模型推理新思路:Two-Player架构打破自我反思瓶颈

简介: 复旦大学研究团队提出Two-Player架构,通过分离推理和批评模型的角色,突破大语言模型(LLM)在复杂推理任务中的自我反思瓶颈。该架构利用批评模型提供逐步反馈,监督推理模型,提升其性能。研究开发了AutoMathCritique框架,收集76,321个响应数据,实验表明批评模型显著提高演员模型的探索效率和解决方案多样性。论文地址:http://arxiv.org/abs/2411.16579

大语言模型(LLM)在科学、编程和数学等领域解决复杂推理任务时,需要花费更多时间进行思考和反思。然而,自我反思和自我纠正等机制的有效性,取决于模型准确评估自身性能的能力。这种能力可能受到初始准确性、问题难度和缺乏外部反馈等因素的限制。为了突破这一瓶颈,复旦大学的研究团队提出了一种名为Two-Player的新颖架构,该架构通过分离推理和批评模型的角色,利用批评模型在测试时间和训练时间提供逐步反馈,以监督推理(演员)模型。

研究团队首先开发了AutoMathCritique,这是一个自动化且可扩展的框架,用于收集批评数据。通过这个框架,他们创建了一个包含76,321个响应和逐步反馈的数据集。使用这个数据集对语言模型进行微调,使其能够为数学推理生成自然语言反馈。研究结果表明,批评模型在测试时间一致地提高了演员模型在困难查询上的性能,尤其是在扩展推理时间计算时。

基于这些发现,研究团队将基于批评的监督引入演员模型的自我训练过程,并提出了一种批评循环自我改进方法。实验表明,该方法提高了演员模型的探索效率和解决方案多样性,特别是在具有挑战性的查询上,从而产生了一个更强的推理模型。最后,研究团队初步探索了通过批评监督训练自我对话推理模型,并展示了其潜力。

这项研究为大语言模型的推理能力提升提供了新的思路。通过引入批评模型,可以为推理模型提供更准确的反馈,从而提高其在复杂推理任务上的性能。这种Two-Player架构不仅在测试时间有效,还可以在训练时间帮助推理模型进行自我改进。

然而,这项研究也存在一些挑战和限制。首先,批评模型的准确性和可靠性是一个关键问题。如果批评模型无法提供准确的反馈,那么它可能无法有效地帮助推理模型进行改进。其次,这种Two-Player架构可能需要更多的计算资源和时间来训练和运行。最后,如何将这种架构应用于其他领域和任务,也是一个需要进一步研究的问题。

论文地址:http://arxiv.org/abs/2411.16579

目录
相关文章
|
3月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
22天前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
248 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
3月前
|
存储 设计模式 人工智能
AI Agent安全架构实战:基于LangGraph的Human-in-the-Loop系统设计​
本文深入解析Human-in-the-Loop(HIL)架构在AI Agent中的核心应用,探讨其在高风险场景下的断点控制、状态恢复与安全管控机制,并结合LangGraph的创新设计与金融交易实战案例,展示如何实现效率与安全的平衡。
492 0
|
16天前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
|
1月前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
225 2
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
1月前
|
机器学习/深度学习 人工智能 JSON
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。
128 8
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
|
1月前
|
存储 缓存 负载均衡
LLM推理成本直降60%:PD分离在大模型商业化中的关键价值
在LLM推理中,Prefill(计算密集)与Decode(访存密集)阶段特性不同,分离计算可提升资源利用率。本文详解vLLM框架中的PD分离实现及局限,并分析Dynamo、Mooncake、SGLang等主流方案,探讨KV缓存、传输机制与调度策略,助力LLM推理优化。建议点赞收藏,便于后续查阅。
696 1
|
3月前
|
机器学习/深度学习 负载均衡 C++
MoR vs MoE架构对比:更少参数、更快推理的大模型新选择
本文将深入分析递归混合(MoR)与专家混合(MoE)两种架构在大语言模型中的技术特性差异,探讨各自的适用场景和实现机制,并从架构设计、参数效率、推理性能等多个维度进行全面对比。
229 0
MoR vs MoE架构对比:更少参数、更快推理的大模型新选择

热门文章

最新文章