COLM 2：从正确中学习？大模型的自我纠正新视角-阿里云开发者社区

COLM 2：从正确中学习？大模型的自我纠正新视角

2024-10-21 43

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【10月更文挑战第11天】本文介绍了一种名为“从正确中学习”（LeCo）的新型自我纠正推理框架，旨在解决大型语言模型（LLMs）在自然语言处理任务中的局限性。LeCo通过提供更多的正确推理步骤，帮助模型缩小解空间，提高推理效率。该框架无需人类反馈、外部工具或手工提示，通过计算每一步的置信度分数来指导模型。实验结果显示，LeCo在多步骤推理任务上表现出色，显著提升了推理性能。然而，该方法也存在计算成本高、适用范围有限及可解释性差等局限。

在自然语言处理领域，大型语言模型（LLMs）已经在各种任务中展示了出色的性能。然而，它们仍然存在一些局限性，如幻觉、不忠实的推理和有毒内容的生成。为了解决这些问题，研究人员提出了各种方法，其中一种潜在的方法是让模型从人类或外部工具的反馈中学习。

传统上，为了改善LLMs的性能，研究人员采用了学习反馈的方法。这涉及一个循环过程，包括尝试、检查和纠正。在检查阶段，反馈被提供给模型，以识别尝试答案中的缺陷并指导必要的纠正。然而，这种方法存在一些局限性。

首先，人类反馈的收集是昂贵的，因为它需要手动劳动。其次，外部工具的反馈可能受到工具能力的限制。此外，设计和使用手工制作的提示来指导模型获取和理解反馈是一个耗时且劳动密集的过程。

为了消除外部干预，研究人员还探索了自我纠正的方法，即模型逐渐从内部生成的反馈中学习，而不需要依赖外部来源。然而，最近的研究表明，LLMs可能没有固有的能力来仅通过设计提示来找到错误并纠正其响应。

在本文中，作者提出了一种新颖的自我纠正推理框架，该框架消除了对人类反馈、外部工具和手工制作提示的需求。与现有的自我纠正方法不同，该框架不是基于学习错误，而是基于一种称为“从正确中学习”（LeCo）的多步骤推理范式。

LeCo的核心思想是，通过向模型提供更多的正确推理步骤，可以帮助它缩小解决方案的搜索空间，从而更有效地找到最终答案。为了实现这一点，LeCo利用了一个无提示的方法来计算每个推理步骤的置信度分数。通过识别最可靠的步骤，模型可以利用这些见解来指导其推理过程。

在LeCo中，步骤置信度是通过考虑三个方面的因素来计算的：平均令牌分数、步骤差异分数和跨步骤过渡分数。平均令牌分数是通过计算步骤中所有令牌的概率来获得的。步骤差异分数是基于令牌概率的分布均匀性来计算的。跨步骤过渡分数则考虑了连续步骤之间的过渡概率。

作者在各种多步骤推理任务上进行了实验，包括算术推理、常识推理和逻辑推理。实验结果表明，LeCo框架在提高推理性能方面具有显著效果，并且能够减少令牌消耗。

优点

无提示：LeCo框架不需要手工制作的提示，从而避免了耗时且劳动密集的过程。
自我纠正：通过从正确中学习，模型可以自我纠正，而不需要依赖外部反馈。
性能提升：实验结果表明，LeCo框架在各种推理任务上具有显著的性能提升。

局限性

计算成本：计算步骤置信度可能需要额外的计算成本。
适用范围：目前尚不清楚LeCo框架是否适用于所有类型的推理任务。
可解释性：LeCo框架的可解释性可能受到限制，因为它是基于置信度分数的计算。

论文链接：https://arxiv.org/pdf/2403.19094

COLM 2：从正确中学习？大模型的自我纠正新视角

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

COLM 2：从正确中学习？大模型的自我纠正新视角

热门文章

最新文章

相关课程

相关电子书

相关实验场景