深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理

简介: 普林斯顿大学和耶鲁大学研究人员发布报告,探讨链式思维(CoT)提示对大型语言模型(LLM)推理能力的影响。研究通过移位密码任务,揭示了三个关键因素:任务输出概率、预训练阶段的隐性学习及中间操作数量(噪声推理)。实验使用GPT-4、Claude 3和Llama 3.1模型,发现CoT提示可显著提升模型准确性,但也存在局限性。论文地址:https://arxiv.org/abs/2407.01687。

在人工智能领域,大型语言模型(LLM)的多步推理能力一直是研究的热点。近期,普林斯顿大学和耶鲁大学的研究人员发布了一项关于链式思维(Chain-of-Thought,CoT)提示对LLM推理能力影响的详细研究报告。该研究通过分析LLM在解密移位密码这一符号推理任务中的表现,揭示了影响CoT提示效果的三个关键因素:任务输出的概率、模型在预训练阶段的隐性学习(即记忆)以及推理过程中涉及的中间操作数量(即噪声推理)。

移位密码是一种简单的加密方法,通过将字母在字母表中向前移动一定数量的位置来加密信息。研究人员选择这一任务作为研究对象,因为它相对简单且具有明确的规则,便于分析LLM的推理过程。

研究中,研究人员使用了三种不同的LLM模型:GPT-4、Claude 3和Llama 3.1。他们通过CoT提示引导这些模型完成移位密码的解密任务,并分析了模型的输出结果。

  1. 任务输出的概率:研究人员发现,任务输出的概率对CoT提示的效果有着显著影响。当任务输出的概率较高时,模型的准确性也会相应提高。例如,在使用GPT-4进行测试时,通过调整任务输出的概率,模型的准确性可以从26%提高到70%。这表明,LLM在进行推理时会受到任务输出概率的影响,从而影响其推理的准确性。

  2. 模型的隐性学习(记忆):在预训练阶段,LLM会接触到大量的文本数据,从而学习到各种语言模式和知识。这些隐性学习的内容在模型进行推理时会发挥重要作用。研究人员发现,模型在预训练阶段学习到的知识会对其在CoT提示下的推理能力产生影响。例如,如果模型在预训练阶段接触过类似的移位密码任务,那么它在使用CoT提示进行推理时会表现得更好。

  3. 推理过程中的中间操作数量(噪声推理):在进行多步推理时,LLM需要进行一系列的中间操作。这些操作的数量和复杂性会对模型的推理能力产生影响。研究人员发现,当推理过程中涉及的中间操作数量较多时,模型的推理能力会受到影响,从而导致准确性下降。这表明,在设计CoT提示时,需要考虑推理过程中的中间操作数量,以避免过多的噪声推理对模型性能的影响。

这项研究为我们深入理解CoT提示对LLM推理能力的影响提供了宝贵的见解。通过分析移位密码任务中的影响因素,研究人员揭示了CoT提示在提升LLM多步推理能力方面的潜力。

首先,研究结果表明,CoT提示可以帮助LLM进行更准确的推理。通过提供逐步推理的过程,CoT提示可以帮助模型更准确地理解问题并得出正确的答案。这对于需要进行复杂推理的任务来说尤为重要。

其次,研究还揭示了LLM在推理过程中的局限性。尽管CoT提示可以提高模型的推理能力,但模型仍然受到任务输出概率、隐性学习和噪声推理等因素的影响。这提醒我们在使用LLM进行推理时需要谨慎,并考虑这些因素对模型性能的影响。

此外,研究还引发了关于LLM推理能力的进一步思考。虽然CoT提示可以帮助模型进行更准确的推理,但我们仍然需要探索更有效的方法来提高模型的推理能力。例如,是否可以通过改进预训练方法或设计更智能的提示来进一步提高模型的推理能力?这些都是未来研究中需要解决的问题。

论文地址:https://arxiv.org/abs/2407.01687

目录
打赏
0
26
29
3
396
分享
相关文章
【科普向】我们所说的AI模型训练到底在训练什么?
人工智能(AI)模型训练类似于厨师通过反复实践来掌握烹饪技巧。它通过大量数据输入,自动优化内部参数(如神经网络中的权重和偏置),以最小化预测误差或损失函数,使模型在面对新数据时更加准确。训练过程包括前向传播、计算损失、反向传播和更新权重等步骤,最终生成权重文件保存模型参数,用于后续的应用和部署。理解生物神经网络的工作原理为人工神经网络的设计提供了灵感,后者广泛应用于图像识别、自然语言处理等领域。
3D具身基础模型!北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力
北京大学研究团队提出Lift3D框架,通过增强2D预训练模型的隐式与显式3D机器人表示,实现鲁棒的3D操作策略。核心包括任务感知掩码自编码器和2D模型提升策略,有效提高3D空间感知能力。实验表明,Lift3D在模拟与真实场景中性能优越,但计算成本较高且未涉及语言条件理解。未来可结合多模态模型优化应用。
50 30
GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型
加州大学伯克利分校的一项新研究提出了一种基于微调大型语言模型(LLM)的方法,以预测未来模型的涌现能力。通过在特定任务上微调现有模型并拟合参数化函数,研究团队能够在四个NLP基准测试中准确预测未来模型的能力。该方法为模型开发者和政策制定者提供了重要工具,但也存在局限性,如仅能预测4倍计算资源内的涌现现象。论文地址:https://arxiv.org/pdf/2411.16035。
36 1
LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
近日,字节跳动豆包大模型团队发布论文,探讨视频生成模型(如类Sora模型)在理解物理规律方面的能力,引起广泛关注并获Yann LeCun点赞。研究通过2D模拟平台测试扩散模型,发现其在分布内表现优异,但在分布外和组合泛化上存在不足,揭示了基于案例的泛化和特征优先级机制。这表明,仅靠视觉数据难以学习到真正的物理规律,未来需引入物理先验知识以提升模型性能。
116 16
深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出网络共识
大型语言模型(LLM)如ChatGPT正改变人机交互,但在生成看似真实的错误信息方面存在“幻觉”问题。这种现象源于LLM依赖统计概率而非语义理解,导致在处理争议或冷门话题时易出错。研究显示,LLM的准确性高度依赖于训练数据的质量和数量。尽管如此,LLM仍具巨大潜力,需持续优化并保持批判性使用。
99 12
吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
【6月更文挑战第27天】吴恩达团队提出多模态模型新方法—多样本上下文学习,允许模型无需微调即可快速适应新任务。通过扩大上下文窗口至2000个示例,模型性能在图像分类等任务上显著提升,同时研究了批处理优化以减少计算成本。尽管面临计算开销和数据需求的挑战,但该方法为AI的高效泛化开辟了新途径。[论文链接:https://arxiv.org/abs/2405.09798]
178 5
人类自身都对不齐,怎么对齐AI?新研究全面审视偏好在AI对齐中的作用
论文《AI对齐中的超越偏好》挑战了偏好主义AI对齐方法,指出偏好无法全面代表人类价值观,存在冲突和变化,并受社会影响。文章提出基于角色的对齐方案,强调AI应与其社会角色相关的规范标准一致,而非仅关注个人偏好,旨在实现更稳定、适用性更广且更符合社会利益的AI对齐。论文链接:https://arxiv.org/pdf/2408.16984
69 2
|
7月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
173 65
大模型体验体验报告:OpenAI-O1内置思维链和多个llm组合出的COT有啥区别?传统道家理论+中学生物理奥赛题测试,名不虚传还是名副其实?
一个月前,o1发布时,虽然让人提前体验,但自己并未进行测试。近期终于有机会使用,却仍忘记第一时间测试。本文通过两个测试案例展示了o1的强大能力:一是关于丹田及练气的详细解答,二是解决一道复杂的中学生物理奥赛题。o1的知识面广泛、推理迅速,令人印象深刻。未来,或许可以通过赋予o1更多能力,使其在更多领域发挥作用。如果你有好的测试题,欢迎留言,一起探索o1的潜力。
282 1
打开黑盒神经网络!港大推出全新会说话的推荐系统大模型XRec,从黑盒预测到可解释
【7月更文挑战第2天】港大研发XRec模型,将可解释性引入推荐系统。XRec结合大型语言模型的语义理解与协同过滤,生成推荐的文本解释,提升透明度。该模型无关设计允许与各类推荐系统配合,增强用户体验。然而,计算资源需求高、数据质量和用户理解能力可能影响其效果。[查看论文](https://arxiv.org/pdf/2406.02377)**
113 11