过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%

简介: 研究团队提出了一种新的过程奖励模型(PRM),通过衡量每一步骤的进展来改进大型语言模型(LLM)的推理能力。与仅在最后提供反馈的结果奖励模型(ORM)不同,PRM能在多步骤推理中逐步提供反馈,从而改善信用分配。研究引入了过程优势验证者(PAV),用于预测证明策略下的进展,显著提升了测试时间搜索和在线强化学习(RL)的效率与准确性。实验表明,PAV相比ORM提高了8%以上的准确性和5至6倍的样本效率。该方法在Gemma2模型上得到了验证,并展示了在解决复杂问题上的潜力。尽管成果显著,但仍需进一步研究以优化证明策略的设计和减少拟合误差。

在大型语言模型(LLM)的推理能力提升领域,过程奖励模型(PRM)展现了巨大的潜力。PRM通过在多步骤推理过程中的每一步提供反馈,有望改善相对于结果奖励模型(ORM)的信用分配,后者仅在最后一步提供反馈。然而,收集密集的、逐步骤的人工标签并不具有可扩展性,迄今为止,从自动标注的数据中训练PRM仅取得了有限的进展。

为了通过运行搜索来改进基本策略,或将其用作强化学习(RL)的密集奖励,研究团队提出了一个关键问题:“我们应该如何设计过程奖励?”。他们的核心见解是,为了有效,某一步骤的过程奖励应衡量进展:在采取该步骤前后,产生正确响应的可能性的变化,这与RL中的步骤级优势概念相对应。至关重要的是,这种进展应该在与基本策略不同的证明策略下进行测量。

研究团队从理论上对良好证明者集进行了表征,并证明了优化来自这些证明者的过程奖励可以改善测试时间搜索和在线RL期间的探索。事实上,他们的表征表明,较弱的证明策略可以显著改进较强的基本策略,这在经验上也得到了证实。

为了验证这些主张,研究团队训练了过程优势验证者(PAV)来预测在此类证明者下的进展。他们展示了与ORM相比,测试时间搜索对PAV的准确性提高了8%以上,并且计算效率提高了1.5至5倍。使用PAV的密集奖励进行在线RL实现了5至6倍的样本效率增益,准确性提高了6%以上,超过了ORM。

研究团队在一系列2B、9B和27B Gemma2模型上验证了他们的主张。PAV训练数据是通过从证明者中采样“种子”解决方案轨迹,并从同一轨迹中进行部分滚动来估计每个前缀的Q值而收集的。他们的工作流程规定了种子和部分滚动的有利比率。

他们的第一批实验结果显示,在测试时间计算预算相等的情况下,与重新对完整轨迹进行排名以对抗ORM相比,搜索PAV的准确性提高了8%以上,并且计算效率提高了1.5至5倍。来自PAV的密集奖励通过积极修剪解决方案的组合空间并缩小到一组多样化的可能序列,改善了搜索期间的步骤级探索效率。

最后,他们展示了使用PAV作为RL的密集奖励,首次实现了6倍的数据效率增益,超过了仅使用结果奖励的情况。此外,使用PAV训练的基本策略也实现了8倍更好的Pass@N性能(在N次尝试中采样正确解决方案的概率),从而为任何测试时间重新排名器提供了更高的性能上限。最后,使用PAV运行RL发现了采样基本策略无法解决的困难问题的解决方案,即使预算非常大。

研究团队提供了对为什么某些证明策略比其他策略更有效地改进基本策略的正式分析。他们表明,当证明策略能够通过获得足够不同的优势值来区分基本策略采取的不同行动时,它将能够改进基本策略。然而,如果证明策略对给定状态下的行动进行非常不同的排名,则有效奖励将变得不那么可靠,因为学习信号将发生冲突。

尽管这些结果令人鼓舞,但仍存在一些限制,为未来的研究提供了重要的途径。例如,目前尚不清楚如何自动设计一个灵活的、最佳的或非常好的证明策略类,以适应一系列基本策略迭代。此外,由于学习过程优势验证者(PAV)不可避免地会引入拟合误差,这限制了方法的性能。未来的工作可以探索在不训练验证者的情况下,通过在在线RL或搜索期间直接从证明策略运行滚动来估计优势,从而解决这些限制。

论文链接:https://arxiv.org/pdf/2410.08146

目录
相关文章
|
9月前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
1266 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
大数据 Python
Python 采集87个手绘风格PPT模板
Python 采集87个手绘风格PPT模板
265 1
|
测试技术
新年第一弹!全新的过程奖励模型PRM开源
新年第一弹!全新的过程奖励模型PRM开源
|
8月前
|
文字识别 测试技术 开发者
Qwen3-VL新成员 2B、32B来啦!更适合开发者体质
Qwen3-VL家族重磅推出2B与32B双版本,轻量高效与超强推理兼备,一模型通吃多模态与纯文本任务!
7271 12
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
14431 34
Qwen2.5-7B-Instruct Lora 微调
|
人工智能 自然语言处理 人机交互
Social Media Agent:告别文案焦虑!AI自动生成高转化帖子,输入URL快速生成爆款文案
Social Media Agent 是一款由 LangChain 推出的 AI 社交媒体内容管理工具,支持 Twitter 和 LinkedIn 平台,能快速生成高质量的帖子。
920 17
Social Media Agent:告别文案焦虑!AI自动生成高转化帖子,输入URL快速生成爆款文案
|
人工智能 自然语言处理 运维
AI的出现,让月入几万的程序员,要被AI取代了?
人工智能(AI)的快速发展对程序员的工作带来了挑战与机遇。AI在自动化代码生成、问题解决及效率提升方面表现出色,但程序员在复杂系统架构设计、创新思维和业务沟通上仍具不可替代的优势。AI可作为辅助工具提升效率,同时催生新职业机会如AI工程师和数据科学家。获取生成式人工智能认证(GAI认证)能增强竞争力,拓展职业领域并提高稳定性。应对AI挑战的关键在于持续学习、培养软技能和关注行业动态,实现与AI的合作共生。
|
机器学习/深度学习 人工智能 PyTorch
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
本文探讨了Transformer模型中变长输入序列的优化策略,旨在解决深度学习中常见的计算效率问题。文章首先介绍了批处理变长输入的技术挑战,特别是填充方法导致的资源浪费。随后,提出了多种优化技术,包括动态填充、PyTorch NestedTensors、FlashAttention2和XFormers的memory_efficient_attention。这些技术通过减少冗余计算、优化内存管理和改进计算模式,显著提升了模型的性能。实验结果显示,使用FlashAttention2和无填充策略的组合可以将步骤时间减少至323毫秒,相比未优化版本提升了约2.5倍。
992 3
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers