在大型语言模型(LLM)的推理能力提升领域,过程奖励模型(PRM)展现了巨大的潜力。PRM通过在多步骤推理过程中的每一步提供反馈,有望改善相对于结果奖励模型(ORM)的信用分配,后者仅在最后一步提供反馈。然而,收集密集的、逐步骤的人工标签并不具有可扩展性,迄今为止,从自动标注的数据中训练PRM仅取得了有限的进展。
为了通过运行搜索来改进基本策略,或将其用作强化学习(RL)的密集奖励,研究团队提出了一个关键问题:“我们应该如何设计过程奖励?”。他们的核心见解是,为了有效,某一步骤的过程奖励应衡量进展:在采取该步骤前后,产生正确响应的可能性的变化,这与RL中的步骤级优势概念相对应。至关重要的是,这种进展应该在与基本策略不同的证明策略下进行测量。
研究团队从理论上对良好证明者集进行了表征,并证明了优化来自这些证明者的过程奖励可以改善测试时间搜索和在线RL期间的探索。事实上,他们的表征表明,较弱的证明策略可以显著改进较强的基本策略,这在经验上也得到了证实。
为了验证这些主张,研究团队训练了过程优势验证者(PAV)来预测在此类证明者下的进展。他们展示了与ORM相比,测试时间搜索对PAV的准确性提高了8%以上,并且计算效率提高了1.5至5倍。使用PAV的密集奖励进行在线RL实现了5至6倍的样本效率增益,准确性提高了6%以上,超过了ORM。
研究团队在一系列2B、9B和27B Gemma2模型上验证了他们的主张。PAV训练数据是通过从证明者中采样“种子”解决方案轨迹,并从同一轨迹中进行部分滚动来估计每个前缀的Q值而收集的。他们的工作流程规定了种子和部分滚动的有利比率。
他们的第一批实验结果显示,在测试时间计算预算相等的情况下,与重新对完整轨迹进行排名以对抗ORM相比,搜索PAV的准确性提高了8%以上,并且计算效率提高了1.5至5倍。来自PAV的密集奖励通过积极修剪解决方案的组合空间并缩小到一组多样化的可能序列,改善了搜索期间的步骤级探索效率。
最后,他们展示了使用PAV作为RL的密集奖励,首次实现了6倍的数据效率增益,超过了仅使用结果奖励的情况。此外,使用PAV训练的基本策略也实现了8倍更好的Pass@N性能(在N次尝试中采样正确解决方案的概率),从而为任何测试时间重新排名器提供了更高的性能上限。最后,使用PAV运行RL发现了采样基本策略无法解决的困难问题的解决方案,即使预算非常大。
研究团队提供了对为什么某些证明策略比其他策略更有效地改进基本策略的正式分析。他们表明,当证明策略能够通过获得足够不同的优势值来区分基本策略采取的不同行动时,它将能够改进基本策略。然而,如果证明策略对给定状态下的行动进行非常不同的排名,则有效奖励将变得不那么可靠,因为学习信号将发生冲突。
尽管这些结果令人鼓舞,但仍存在一些限制,为未来的研究提供了重要的途径。例如,目前尚不清楚如何自动设计一个灵活的、最佳的或非常好的证明策略类,以适应一系列基本策略迭代。此外,由于学习过程优势验证者(PAV)不可避免地会引入拟合误差,这限制了方法的性能。未来的工作可以探索在不训练验证者的情况下,通过在在线RL或搜索期间直接从证明策略运行滚动来估计优势,从而解决这些限制。