COLM 2:从正确中学习?大模型的自我纠正新视角

简介: 【10月更文挑战第11天】本文介绍了一种名为“从正确中学习”(LeCo)的新型自我纠正推理框架,旨在解决大型语言模型(LLMs)在自然语言处理任务中的局限性。LeCo通过提供更多的正确推理步骤,帮助模型缩小解空间,提高推理效率。该框架无需人类反馈、外部工具或手工提示,通过计算每一步的置信度分数来指导模型。实验结果显示,LeCo在多步骤推理任务上表现出色,显著提升了推理性能。然而,该方法也存在计算成本高、适用范围有限及可解释性差等局限。

在自然语言处理领域,大型语言模型(LLMs)已经在各种任务中展示了出色的性能。然而,它们仍然存在一些局限性,如幻觉、不忠实的推理和有毒内容的生成。为了解决这些问题,研究人员提出了各种方法,其中一种潜在的方法是让模型从人类或外部工具的反馈中学习。

传统上,为了改善LLMs的性能,研究人员采用了学习反馈的方法。这涉及一个循环过程,包括尝试、检查和纠正。在检查阶段,反馈被提供给模型,以识别尝试答案中的缺陷并指导必要的纠正。然而,这种方法存在一些局限性。

首先,人类反馈的收集是昂贵的,因为它需要手动劳动。其次,外部工具的反馈可能受到工具能力的限制。此外,设计和使用手工制作的提示来指导模型获取和理解反馈是一个耗时且劳动密集的过程。

为了消除外部干预,研究人员还探索了自我纠正的方法,即模型逐渐从内部生成的反馈中学习,而不需要依赖外部来源。然而,最近的研究表明,LLMs可能没有固有的能力来仅通过设计提示来找到错误并纠正其响应。

在本文中,作者提出了一种新颖的自我纠正推理框架,该框架消除了对人类反馈、外部工具和手工制作提示的需求。与现有的自我纠正方法不同,该框架不是基于学习错误,而是基于一种称为“从正确中学习”(LeCo)的多步骤推理范式。

LeCo的核心思想是,通过向模型提供更多的正确推理步骤,可以帮助它缩小解决方案的搜索空间,从而更有效地找到最终答案。为了实现这一点,LeCo利用了一个无提示的方法来计算每个推理步骤的置信度分数。通过识别最可靠的步骤,模型可以利用这些见解来指导其推理过程。

在LeCo中,步骤置信度是通过考虑三个方面的因素来计算的:平均令牌分数、步骤差异分数和跨步骤过渡分数。平均令牌分数是通过计算步骤中所有令牌的概率来获得的。步骤差异分数是基于令牌概率的分布均匀性来计算的。跨步骤过渡分数则考虑了连续步骤之间的过渡概率。

作者在各种多步骤推理任务上进行了实验,包括算术推理、常识推理和逻辑推理。实验结果表明,LeCo框架在提高推理性能方面具有显著效果,并且能够减少令牌消耗。

优点

  1. 无提示:LeCo框架不需要手工制作的提示,从而避免了耗时且劳动密集的过程。
  2. 自我纠正:通过从正确中学习,模型可以自我纠正,而不需要依赖外部反馈。
  3. 性能提升:实验结果表明,LeCo框架在各种推理任务上具有显著的性能提升。

局限性

  1. 计算成本:计算步骤置信度可能需要额外的计算成本。
  2. 适用范围:目前尚不清楚LeCo框架是否适用于所有类型的推理任务。
  3. 可解释性:LeCo框架的可解释性可能受到限制,因为它是基于置信度分数的计算。

论文链接:https://arxiv.org/pdf/2403.19094

目录
相关文章
|
2月前
|
人工智能 计算机视觉
幻觉不一定有害,新框架用AI的幻觉优化图像分割技术
在图像分割领域,传统方法依赖大量手动标注数据,效率低下且难以适应复杂场景。为解决这一问题,研究人员提出了“任务通用可提示分割”方法,利用多模态大型语言模型(MLLM)生成实例特定提示。然而,MLLM常出现幻觉,影响分割精度。为此,研究团队开发了“Prompt-Mask Cycle”(ProMaC)框架,通过迭代生成和验证提示及掩码,有效利用幻觉信息,提高了分割精度和效率。实验结果表明,ProMaC在多个基准数据集上表现出色,为图像分割技术的发展提供了新思路。
50 6
|
3月前
|
机器学习/深度学习 自然语言处理
完全使用自生成数据实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%
【10月更文挑战第27天】Google DeepMind 研究人员开发了 SCoRe 方法,利用多回合在线强化学习显著提升大型语言模型(LLM)的自我纠正能力。该方法分为两个阶段:第一阶段通过强化学习减少行为崩溃,第二阶段使用奖励塑造优化两次尝试的性能。实验结果显示,SCoRe 在数学和编程任务上分别提升了 4.4% 和 12.2% 的自我纠正性能。
86 3
|
4月前
|
机器学习/深度学习 算法 安全
大模型进阶微调篇(二):基于人类反馈的强化学习RLHF原理、优点介绍,但需要警惕LLMs的拍马屁行为
本文探讨了基于人类反馈的强化学习(RLHF)方法的优缺点。作者指出,虽然RLHF能够使模型更好地满足用户需求,但也存在缺乏多样性、创新不足、偏好固化和难以适应动态变化等问题。文章通过具体实验和示例代码,详细解析了RLHF的工作原理,并强调了其在实际应用中的潜在风险。
472 6
|
7月前
|
机器学习/深度学习
大模型概念问题之什么是人类反馈信号强化学习(RLHF)
大模型概念问题之什么是人类反馈信号强化学习(RLHF)
|
9月前
|
人工智能
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
【5月更文挑战第23天】SPPO技术针对大语言模型的对齐问题提出新的解决方案,通过两个LLM自我博弈来学习和满足人类偏好。该方法能更准确地捕捉偏好复杂性,优于传统奖励模型。实验显示SPPO提升了LLM性能,但依赖外部偏好模型和高计算需求限制了其扩展性。[链接](https://arxiv.org/pdf/2405.00675.pdf)
355 1
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
论文介绍:自我对弈微调——将弱语言模型转化为强语言模型的新方法
【5月更文挑战第17天】论文《自我对弈微调》提出了一种新方法,名为SPIN,用于在无需额外人工标注数据的情况下增强大型语言模型(LLM)。SPIN利用自我对弈机制,让模型通过与自身历史版本交互生成自我训练数据,实现性能提升。该方法在多个基准数据集上表现出色,超越了传统监督微调和直接偏好优化。SPIN还为生成对抗网络研究提供了新思路,展示了自我对弈在强化学习和深度学习中的潜力。实验表明,SPIN有效提升了模型性能,为未来研究奠定了基础。[[arxiv](https://arxiv.org/abs/2401.01335v1)]
95 3
|
计算机视觉
SplitMask:大规模数据集是自我监督预训练的必要条件吗?
自监督预训练需要大规模数据集吗?这是2021年发布的一篇论文,它在自监督预训练场景中使用小数据集,如Stanford Cars, Sketch或COCO,它们比ImageNet小几个数量级。并提出了一种类似于BEiT的去噪自编码器的变体SplitMask,它对预训练数据的类型和大小具有更强的鲁棒性。
86 0
|
机器学习/深度学习 数据采集 人工智能
综述:使用语言模型进行可控的蛋白质设计(1)
综述:使用语言模型进行可控的蛋白质设计
530 0
|
机器学习/深度学习 人工智能 算法
自监督为何有效?243页普林斯顿博士论文「理解自监督表征学习」,全面阐述对比学习、语言模型和自我预测三类方法
自监督为何有效?243页普林斯顿博士论文「理解自监督表征学习」,全面阐述对比学习、语言模型和自我预测三类方法
161 0
自监督为何有效?243页普林斯顿博士论文「理解自监督表征学习」,全面阐述对比学习、语言模型和自我预测三类方法
|
机器学习/深度学习 存储 自然语言处理
重新审视Prompt优化问题,预测偏差让语言模型上下文学习更强
重新审视Prompt优化问题,预测偏差让语言模型上下文学习更强
159 0