COLM 2:从正确中学习?大模型的自我纠正新视角

简介: 【10月更文挑战第11天】本文介绍了一种名为“从正确中学习”(LeCo)的新型自我纠正推理框架,旨在解决大型语言模型(LLMs)在自然语言处理任务中的局限性。LeCo通过提供更多的正确推理步骤,帮助模型缩小解空间,提高推理效率。该框架无需人类反馈、外部工具或手工提示,通过计算每一步的置信度分数来指导模型。实验结果显示,LeCo在多步骤推理任务上表现出色,显著提升了推理性能。然而,该方法也存在计算成本高、适用范围有限及可解释性差等局限。

在自然语言处理领域,大型语言模型(LLMs)已经在各种任务中展示了出色的性能。然而,它们仍然存在一些局限性,如幻觉、不忠实的推理和有毒内容的生成。为了解决这些问题,研究人员提出了各种方法,其中一种潜在的方法是让模型从人类或外部工具的反馈中学习。

传统上,为了改善LLMs的性能,研究人员采用了学习反馈的方法。这涉及一个循环过程,包括尝试、检查和纠正。在检查阶段,反馈被提供给模型,以识别尝试答案中的缺陷并指导必要的纠正。然而,这种方法存在一些局限性。

首先,人类反馈的收集是昂贵的,因为它需要手动劳动。其次,外部工具的反馈可能受到工具能力的限制。此外,设计和使用手工制作的提示来指导模型获取和理解反馈是一个耗时且劳动密集的过程。

为了消除外部干预,研究人员还探索了自我纠正的方法,即模型逐渐从内部生成的反馈中学习,而不需要依赖外部来源。然而,最近的研究表明,LLMs可能没有固有的能力来仅通过设计提示来找到错误并纠正其响应。

在本文中,作者提出了一种新颖的自我纠正推理框架,该框架消除了对人类反馈、外部工具和手工制作提示的需求。与现有的自我纠正方法不同,该框架不是基于学习错误,而是基于一种称为“从正确中学习”(LeCo)的多步骤推理范式。

LeCo的核心思想是,通过向模型提供更多的正确推理步骤,可以帮助它缩小解决方案的搜索空间,从而更有效地找到最终答案。为了实现这一点,LeCo利用了一个无提示的方法来计算每个推理步骤的置信度分数。通过识别最可靠的步骤,模型可以利用这些见解来指导其推理过程。

在LeCo中,步骤置信度是通过考虑三个方面的因素来计算的:平均令牌分数、步骤差异分数和跨步骤过渡分数。平均令牌分数是通过计算步骤中所有令牌的概率来获得的。步骤差异分数是基于令牌概率的分布均匀性来计算的。跨步骤过渡分数则考虑了连续步骤之间的过渡概率。

作者在各种多步骤推理任务上进行了实验,包括算术推理、常识推理和逻辑推理。实验结果表明,LeCo框架在提高推理性能方面具有显著效果,并且能够减少令牌消耗。

优点

  1. 无提示:LeCo框架不需要手工制作的提示,从而避免了耗时且劳动密集的过程。
  2. 自我纠正:通过从正确中学习,模型可以自我纠正,而不需要依赖外部反馈。
  3. 性能提升:实验结果表明,LeCo框架在各种推理任务上具有显著的性能提升。

局限性

  1. 计算成本:计算步骤置信度可能需要额外的计算成本。
  2. 适用范围:目前尚不清楚LeCo框架是否适用于所有类型的推理任务。
  3. 可解释性:LeCo框架的可解释性可能受到限制,因为它是基于置信度分数的计算。

论文链接:https://arxiv.org/pdf/2403.19094

目录
相关文章
|
机器学习/深度学习 传感器 编解码
再谈注意力机制 | 运用强化学习实现目标特征提取
再谈注意力机制 | 运用强化学习实现目标特征提取
再谈注意力机制 | 运用强化学习实现目标特征提取
|
25天前
|
机器学习/深度学习 网络架构
揭示Transformer重要缺陷!北大提出傅里叶分析神经网络FAN,填补周期性特征建模缺陷
近年来,神经网络在MLP和Transformer等模型上取得显著进展,但在处理周期性特征时存在缺陷。北京大学提出傅里叶分析网络(FAN),基于傅里叶分析建模周期性现象。FAN具有更少的参数、更好的周期性建模能力和广泛的应用范围,在符号公式表示、时间序列预测和语言建模等任务中表现出色。实验表明,FAN能更好地理解周期性特征,超越现有模型。论文链接:https://arxiv.org/pdf/2410.02675.pdf
104 68
|
17天前
|
自然语言处理 人机交互 数据库
TransferTOD:利用LLM解决TOD系统在域外场景槽位难以泛化的问题
任务型对话系统旨在高效处理任务导向的对话,如何利用任务型对话系统准确、高效、合理地完成信息采集的工作一直是一项关键且具有挑战性的任务。
|
2月前
|
机器学习/深度学习 自然语言处理
完全使用自生成数据实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%
【10月更文挑战第27天】Google DeepMind 研究人员开发了 SCoRe 方法,利用多回合在线强化学习显著提升大型语言模型(LLM)的自我纠正能力。该方法分为两个阶段:第一阶段通过强化学习减少行为崩溃,第二阶段使用奖励塑造优化两次尝试的性能。实验结果显示,SCoRe 在数学和编程任务上分别提升了 4.4% 和 12.2% 的自我纠正性能。
69 3
|
3月前
|
机器学习/深度学习 算法 安全
大模型进阶微调篇(二):基于人类反馈的强化学习RLHF原理、优点介绍,但需要警惕LLMs的拍马屁行为
本文探讨了基于人类反馈的强化学习(RLHF)方法的优缺点。作者指出,虽然RLHF能够使模型更好地满足用户需求,但也存在缺乏多样性、创新不足、偏好固化和难以适应动态变化等问题。文章通过具体实验和示例代码,详细解析了RLHF的工作原理,并强调了其在实际应用中的潜在风险。
420 6
|
5月前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
75 1
|
6月前
|
机器学习/深度学习
大模型概念问题之什么是人类反馈信号强化学习(RLHF)
大模型概念问题之什么是人类反馈信号强化学习(RLHF)
|
8月前
|
人工智能
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
【5月更文挑战第23天】SPPO技术针对大语言模型的对齐问题提出新的解决方案,通过两个LLM自我博弈来学习和满足人类偏好。该方法能更准确地捕捉偏好复杂性,优于传统奖励模型。实验显示SPPO提升了LLM性能,但依赖外部偏好模型和高计算需求限制了其扩展性。[链接](https://arxiv.org/pdf/2405.00675.pdf)
333 1
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
论文介绍:自我对弈微调——将弱语言模型转化为强语言模型的新方法
【5月更文挑战第17天】论文《自我对弈微调》提出了一种新方法,名为SPIN,用于在无需额外人工标注数据的情况下增强大型语言模型(LLM)。SPIN利用自我对弈机制,让模型通过与自身历史版本交互生成自我训练数据,实现性能提升。该方法在多个基准数据集上表现出色,超越了传统监督微调和直接偏好优化。SPIN还为生成对抗网络研究提供了新思路,展示了自我对弈在强化学习和深度学习中的潜力。实验表明,SPIN有效提升了模型性能,为未来研究奠定了基础。[[arxiv](https://arxiv.org/abs/2401.01335v1)]
80 3
|
机器学习/深度学习 数据采集 人工智能
综述:使用语言模型进行可控的蛋白质设计(1)
综述:使用语言模型进行可控的蛋白质设计
504 0