过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%

简介: 研究团队提出了一种新的过程奖励模型(PRM),通过衡量每一步骤的进展来改进大型语言模型(LLM)的推理能力。与仅在最后提供反馈的结果奖励模型(ORM)不同,PRM能在多步骤推理中逐步提供反馈,从而改善信用分配。研究引入了过程优势验证者(PAV),用于预测证明策略下的进展,显著提升了测试时间搜索和在线强化学习(RL)的效率与准确性。实验表明,PAV相比ORM提高了8%以上的准确性和5至6倍的样本效率。该方法在Gemma2模型上得到了验证,并展示了在解决复杂问题上的潜力。尽管成果显著,但仍需进一步研究以优化证明策略的设计和减少拟合误差。

在大型语言模型(LLM)的推理能力提升领域,过程奖励模型(PRM)展现了巨大的潜力。PRM通过在多步骤推理过程中的每一步提供反馈,有望改善相对于结果奖励模型(ORM)的信用分配,后者仅在最后一步提供反馈。然而,收集密集的、逐步骤的人工标签并不具有可扩展性,迄今为止,从自动标注的数据中训练PRM仅取得了有限的进展。

为了通过运行搜索来改进基本策略,或将其用作强化学习(RL)的密集奖励,研究团队提出了一个关键问题:“我们应该如何设计过程奖励?”。他们的核心见解是,为了有效,某一步骤的过程奖励应衡量进展:在采取该步骤前后,产生正确响应的可能性的变化,这与RL中的步骤级优势概念相对应。至关重要的是,这种进展应该在与基本策略不同的证明策略下进行测量。

研究团队从理论上对良好证明者集进行了表征,并证明了优化来自这些证明者的过程奖励可以改善测试时间搜索和在线RL期间的探索。事实上,他们的表征表明,较弱的证明策略可以显著改进较强的基本策略,这在经验上也得到了证实。

为了验证这些主张,研究团队训练了过程优势验证者(PAV)来预测在此类证明者下的进展。他们展示了与ORM相比,测试时间搜索对PAV的准确性提高了8%以上,并且计算效率提高了1.5至5倍。使用PAV的密集奖励进行在线RL实现了5至6倍的样本效率增益,准确性提高了6%以上,超过了ORM。

研究团队在一系列2B、9B和27B Gemma2模型上验证了他们的主张。PAV训练数据是通过从证明者中采样“种子”解决方案轨迹,并从同一轨迹中进行部分滚动来估计每个前缀的Q值而收集的。他们的工作流程规定了种子和部分滚动的有利比率。

他们的第一批实验结果显示,在测试时间计算预算相等的情况下,与重新对完整轨迹进行排名以对抗ORM相比,搜索PAV的准确性提高了8%以上,并且计算效率提高了1.5至5倍。来自PAV的密集奖励通过积极修剪解决方案的组合空间并缩小到一组多样化的可能序列,改善了搜索期间的步骤级探索效率。

最后,他们展示了使用PAV作为RL的密集奖励,首次实现了6倍的数据效率增益,超过了仅使用结果奖励的情况。此外,使用PAV训练的基本策略也实现了8倍更好的Pass@N性能(在N次尝试中采样正确解决方案的概率),从而为任何测试时间重新排名器提供了更高的性能上限。最后,使用PAV运行RL发现了采样基本策略无法解决的困难问题的解决方案,即使预算非常大。

研究团队提供了对为什么某些证明策略比其他策略更有效地改进基本策略的正式分析。他们表明,当证明策略能够通过获得足够不同的优势值来区分基本策略采取的不同行动时,它将能够改进基本策略。然而,如果证明策略对给定状态下的行动进行非常不同的排名,则有效奖励将变得不那么可靠,因为学习信号将发生冲突。

尽管这些结果令人鼓舞,但仍存在一些限制,为未来的研究提供了重要的途径。例如,目前尚不清楚如何自动设计一个灵活的、最佳的或非常好的证明策略类,以适应一系列基本策略迭代。此外,由于学习过程优势验证者(PAV)不可避免地会引入拟合误差,这限制了方法的性能。未来的工作可以探索在不训练验证者的情况下,通过在在线RL或搜索期间直接从证明策略运行滚动来估计优势,从而解决这些限制。

论文链接:https://arxiv.org/pdf/2410.08146

目录
相关文章
|
25天前
|
人工智能 数据安全/隐私保护
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理
普林斯顿大学和耶鲁大学研究人员发布报告,探讨链式思维(CoT)提示对大型语言模型(LLM)推理能力的影响。研究通过移位密码任务,揭示了三个关键因素:任务输出概率、预训练阶段的隐性学习及中间操作数量(噪声推理)。实验使用GPT-4、Claude 3和Llama 3.1模型,发现CoT提示可显著提升模型准确性,但也存在局限性。论文地址:https://arxiv.org/abs/2407.01687。
95 29
|
6月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
150 65
|
6月前
|
机器学习/深度学习 自然语言处理 测试技术
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。
79 1
|
6月前
|
机器学习/深度学习 人工智能
高于临床测试3倍准确率!剑桥大学开发AI模型,提前6年预测阿尔茨海默症
【8月更文挑战第9天】剑桥大学研发的人工智能模型在预测阿尔茨海默症方面取得突破,准确率比传统临床测试高三倍,能提前六年预测疾病发生。该模型基于深度学习,利用大量临床及神经影像数据识别生物标志物,预测准确性达80%。这一成果有望促进早期干预,改善患者预后,但仍需更大规模研究验证,并解决隐私与公平性等问题。论文已发表于《The Lancet》子刊。
75 6
|
6月前
评估数据集CGoDial问题之多模态对话为什么重要
评估数据集CGoDial问题之多模态对话为什么重要
|
6月前
|
机器学习/深度学习 算法 搜索推荐
支付宝商业化广告算法问题之在DNN模型中,特征的重要性如何评估
支付宝商业化广告算法问题之在DNN模型中,特征的重要性如何评估
|
7月前
|
机器学习/深度学习 数据采集 搜索推荐
打开黑盒神经网络!港大推出全新会说话的推荐系统大模型XRec,从黑盒预测到可解释
【7月更文挑战第2天】港大研发XRec模型,将可解释性引入推荐系统。XRec结合大型语言模型的语义理解与协同过滤,生成推荐的文本解释,提升透明度。该模型无关设计允许与各类推荐系统配合,增强用户体验。然而,计算资源需求高、数据质量和用户理解能力可能影响其效果。[查看论文](https://arxiv.org/pdf/2406.02377)**
87 11
|
9月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
119 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
9月前
|
机器学习/深度学习 自然语言处理
专治大模型说胡话,精确率100%!华科等提出首个故障token检测/分类方法
【4月更文挑战第29天】华中科技大学等机构研究者提出首个针对大语言模型故障token的检测与分类方法,精确率高达100%,显著提升文本质量。该方法利用上下文信息及注意力机制的神经网络,有效识别语法、语义和事实错误,但在逻辑和风格错误检测上仍有待改进。虽然计算成本高且无法实时干预生成过程,但为优化LLM提供了新途径。[论文链接](https://arxiv.org/abs/2404.09894)
75 1
|
9月前
|
机器学习/深度学习 人工智能 缓存
Contextual发布生成式表征指导调整模型
【2月更文挑战第17天】Contextual发布生成式表征指导调整模型
151 1
Contextual发布生成式表征指导调整模型