在自然语言处理领域,大型语言模型(LLMs)已经在各种任务中展示了出色的性能。然而,它们仍然存在一些局限性,如幻觉、不忠实的推理和有毒内容的生成。为了解决这些问题,研究人员提出了各种方法,其中一种潜在的方法是让模型从人类或外部工具的反馈中学习。
传统上,为了改善LLMs的性能,研究人员采用了学习反馈的方法。这涉及一个循环过程,包括尝试、检查和纠正。在检查阶段,反馈被提供给模型,以识别尝试答案中的缺陷并指导必要的纠正。然而,这种方法存在一些局限性。
首先,人类反馈的收集是昂贵的,因为它需要手动劳动。其次,外部工具的反馈可能受到工具能力的限制。此外,设计和使用手工制作的提示来指导模型获取和理解反馈是一个耗时且劳动密集的过程。
为了消除外部干预,研究人员还探索了自我纠正的方法,即模型逐渐从内部生成的反馈中学习,而不需要依赖外部来源。然而,最近的研究表明,LLMs可能没有固有的能力来仅通过设计提示来找到错误并纠正其响应。
在本文中,作者提出了一种新颖的自我纠正推理框架,该框架消除了对人类反馈、外部工具和手工制作提示的需求。与现有的自我纠正方法不同,该框架不是基于学习错误,而是基于一种称为“从正确中学习”(LeCo)的多步骤推理范式。
LeCo的核心思想是,通过向模型提供更多的正确推理步骤,可以帮助它缩小解决方案的搜索空间,从而更有效地找到最终答案。为了实现这一点,LeCo利用了一个无提示的方法来计算每个推理步骤的置信度分数。通过识别最可靠的步骤,模型可以利用这些见解来指导其推理过程。
在LeCo中,步骤置信度是通过考虑三个方面的因素来计算的:平均令牌分数、步骤差异分数和跨步骤过渡分数。平均令牌分数是通过计算步骤中所有令牌的概率来获得的。步骤差异分数是基于令牌概率的分布均匀性来计算的。跨步骤过渡分数则考虑了连续步骤之间的过渡概率。
作者在各种多步骤推理任务上进行了实验,包括算术推理、常识推理和逻辑推理。实验结果表明,LeCo框架在提高推理性能方面具有显著效果,并且能够减少令牌消耗。
优点
- 无提示:LeCo框架不需要手工制作的提示,从而避免了耗时且劳动密集的过程。
- 自我纠正:通过从正确中学习,模型可以自我纠正,而不需要依赖外部反馈。
- 性能提升:实验结果表明,LeCo框架在各种推理任务上具有显著的性能提升。
局限性
- 计算成本:计算步骤置信度可能需要额外的计算成本。
- 适用范围:目前尚不清楚LeCo框架是否适用于所有类型的推理任务。
- 可解释性:LeCo框架的可解释性可能受到限制,因为它是基于置信度分数的计算。