完全使用自生成数据实现LLM自我纠正，DeepMind新突破SCoRe：纠正性能提升15.9%-阿里云开发者社区

完全使用自生成数据实现LLM自我纠正，DeepMind新突破SCoRe：纠正性能提升15.9%

2024-11-07 46

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【10月更文挑战第27天】Google DeepMind 研究人员开发了 SCoRe 方法，利用多回合在线强化学习显著提升大型语言模型（LLM）的自我纠正能力。该方法分为两个阶段：第一阶段通过强化学习减少行为崩溃，第二阶段使用奖励塑造优化两次尝试的性能。实验结果显示，SCoRe 在数学和编程任务上分别提升了 4.4% 和 12.2% 的自我纠正性能。

大型语言模型（LLMs）在科学领域如数学和编程中的应用越来越广泛。然而，这些模型在自我纠正方面存在严重不足，特别是在没有外部输入的情况下（也称为内在自我纠正）。为了解决这个问题，Google DeepMind的研究人员开发了一种名为SCoRe（Self-Correction via Reinforcement Learning）的多回合在线强化学习方法，该方法使用完全由模型自身生成的数据来显著提高LLM的自我纠正能力。

SCoRe方法的核心思想是利用强化学习来训练LLM的自我纠正能力。具体来说，该方法包括两个阶段：

阶段I：训练一个初始化模型以减少行为崩溃的可能性。在这个阶段，研究人员使用强化学习来训练模型，使其在第二次尝试时产生高奖励的响应，同时将第一次尝试的分布限制在与基础模型接近的范围内。这有助于减少模型在后续训练中的行为崩溃。
阶段II：使用奖励塑造的多回合强化学习。在这个阶段，研究人员使用强化学习来联合优化两次尝试的性能。为了确保模型不会在第二次尝试时行为崩溃，研究人员使用奖励塑造来鼓励模型学习自我纠正策略，而不是简单地在第一次尝试后进行轻微修改。

研究人员在数学和编程任务上进行了实验，并比较了SCoRe方法与其他方法的性能。实验结果表明，SCoRe方法在自我纠正方面取得了显著的性能提升。

在数学任务上，SCoRe方法在MATH数据集上取得了4.4%的自我纠正性能提升，相比于基础模型，自我纠正性能提升了15.6%。在编程任务上，SCoRe方法在HumanEval数据集上取得了12.2%的自我纠正性能提升，相比于基础模型，自我纠正性能提升了9.1%。

此外，研究人员还进行了消融实验，以研究SCoRe方法中各个组件的重要性。实验结果表明，多回合训练、阶段I和奖励塑造对于SCoRe方法的性能至关重要。

SCoRe方法的提出为LLM的自我纠正能力提供了一种有效的解决方案。通过使用强化学习和奖励塑造，该方法能够显著提高模型的自我纠正性能，并在数学和编程任务上取得了显著的性能提升。

然而，SCoRe方法也存在一些局限性。首先，该方法需要大量的计算资源和时间来训练模型。其次，该方法在处理大规模数据集时可能存在挑战，因为强化学习通常需要大量的样本来学习有效的策略。

此外，SCoRe方法在处理复杂任务时可能存在挑战。虽然该方法在数学和编程任务上取得了显著的性能提升，但在处理更复杂的任务时，如自然语言理解或机器翻译，可能需要进一步的研究和改进。

论文链接：https://arxiv.org/pdf/2409.12917

完全使用自生成数据实现LLM自我纠正，DeepMind新突破SCoRe：纠正性能提升15.9%

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

完全使用自生成数据实现LLM自我纠正，DeepMind新突破SCoRe：纠正性能提升15.9%

热门文章

最新文章

相关课程

相关电子书

相关实验场景