大型语言模型(LLMs)在科学领域如数学和编程中的应用越来越广泛。然而,这些模型在自我纠正方面存在严重不足,特别是在没有外部输入的情况下(也称为内在自我纠正)。为了解决这个问题,Google DeepMind的研究人员开发了一种名为SCoRe(Self-Correction via Reinforcement Learning)的多回合在线强化学习方法,该方法使用完全由模型自身生成的数据来显著提高LLM的自我纠正能力。
SCoRe方法的核心思想是利用强化学习来训练LLM的自我纠正能力。具体来说,该方法包括两个阶段:
阶段I:训练一个初始化模型以减少行为崩溃的可能性。在这个阶段,研究人员使用强化学习来训练模型,使其在第二次尝试时产生高奖励的响应,同时将第一次尝试的分布限制在与基础模型接近的范围内。这有助于减少模型在后续训练中的行为崩溃。
阶段II:使用奖励塑造的多回合强化学习。在这个阶段,研究人员使用强化学习来联合优化两次尝试的性能。为了确保模型不会在第二次尝试时行为崩溃,研究人员使用奖励塑造来鼓励模型学习自我纠正策略,而不是简单地在第一次尝试后进行轻微修改。
研究人员在数学和编程任务上进行了实验,并比较了SCoRe方法与其他方法的性能。实验结果表明,SCoRe方法在自我纠正方面取得了显著的性能提升。
在数学任务上,SCoRe方法在MATH数据集上取得了4.4%的自我纠正性能提升,相比于基础模型,自我纠正性能提升了15.6%。在编程任务上,SCoRe方法在HumanEval数据集上取得了12.2%的自我纠正性能提升,相比于基础模型,自我纠正性能提升了9.1%。
此外,研究人员还进行了消融实验,以研究SCoRe方法中各个组件的重要性。实验结果表明,多回合训练、阶段I和奖励塑造对于SCoRe方法的性能至关重要。
SCoRe方法的提出为LLM的自我纠正能力提供了一种有效的解决方案。通过使用强化学习和奖励塑造,该方法能够显著提高模型的自我纠正性能,并在数学和编程任务上取得了显著的性能提升。
然而,SCoRe方法也存在一些局限性。首先,该方法需要大量的计算资源和时间来训练模型。其次,该方法在处理大规模数据集时可能存在挑战,因为强化学习通常需要大量的样本来学习有效的策略。
此外,SCoRe方法在处理复杂任务时可能存在挑战。虽然该方法在数学和编程任务上取得了显著的性能提升,但在处理更复杂的任务时,如自然语言理解或机器翻译,可能需要进一步的研究和改进。