深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理

简介: 普林斯顿大学和耶鲁大学研究人员发布报告,探讨链式思维(CoT)提示对大型语言模型(LLM)推理能力的影响。研究通过移位密码任务,揭示了三个关键因素:任务输出概率、预训练阶段的隐性学习及中间操作数量(噪声推理)。实验使用GPT-4、Claude 3和Llama 3.1模型,发现CoT提示可显著提升模型准确性,但也存在局限性。论文地址:https://arxiv.org/abs/2407.01687。

在人工智能领域,大型语言模型(LLM)的多步推理能力一直是研究的热点。近期,普林斯顿大学和耶鲁大学的研究人员发布了一项关于链式思维(Chain-of-Thought,CoT)提示对LLM推理能力影响的详细研究报告。该研究通过分析LLM在解密移位密码这一符号推理任务中的表现,揭示了影响CoT提示效果的三个关键因素:任务输出的概率、模型在预训练阶段的隐性学习(即记忆)以及推理过程中涉及的中间操作数量(即噪声推理)。

移位密码是一种简单的加密方法,通过将字母在字母表中向前移动一定数量的位置来加密信息。研究人员选择这一任务作为研究对象,因为它相对简单且具有明确的规则,便于分析LLM的推理过程。

研究中,研究人员使用了三种不同的LLM模型:GPT-4、Claude 3和Llama 3.1。他们通过CoT提示引导这些模型完成移位密码的解密任务,并分析了模型的输出结果。

  1. 任务输出的概率:研究人员发现,任务输出的概率对CoT提示的效果有着显著影响。当任务输出的概率较高时,模型的准确性也会相应提高。例如,在使用GPT-4进行测试时,通过调整任务输出的概率,模型的准确性可以从26%提高到70%。这表明,LLM在进行推理时会受到任务输出概率的影响,从而影响其推理的准确性。

  2. 模型的隐性学习(记忆):在预训练阶段,LLM会接触到大量的文本数据,从而学习到各种语言模式和知识。这些隐性学习的内容在模型进行推理时会发挥重要作用。研究人员发现,模型在预训练阶段学习到的知识会对其在CoT提示下的推理能力产生影响。例如,如果模型在预训练阶段接触过类似的移位密码任务,那么它在使用CoT提示进行推理时会表现得更好。

  3. 推理过程中的中间操作数量(噪声推理):在进行多步推理时,LLM需要进行一系列的中间操作。这些操作的数量和复杂性会对模型的推理能力产生影响。研究人员发现,当推理过程中涉及的中间操作数量较多时,模型的推理能力会受到影响,从而导致准确性下降。这表明,在设计CoT提示时,需要考虑推理过程中的中间操作数量,以避免过多的噪声推理对模型性能的影响。

这项研究为我们深入理解CoT提示对LLM推理能力的影响提供了宝贵的见解。通过分析移位密码任务中的影响因素,研究人员揭示了CoT提示在提升LLM多步推理能力方面的潜力。

首先,研究结果表明,CoT提示可以帮助LLM进行更准确的推理。通过提供逐步推理的过程,CoT提示可以帮助模型更准确地理解问题并得出正确的答案。这对于需要进行复杂推理的任务来说尤为重要。

其次,研究还揭示了LLM在推理过程中的局限性。尽管CoT提示可以提高模型的推理能力,但模型仍然受到任务输出概率、隐性学习和噪声推理等因素的影响。这提醒我们在使用LLM进行推理时需要谨慎,并考虑这些因素对模型性能的影响。

此外,研究还引发了关于LLM推理能力的进一步思考。虽然CoT提示可以帮助模型进行更准确的推理,但我们仍然需要探索更有效的方法来提高模型的推理能力。例如,是否可以通过改进预训练方法或设计更智能的提示来进一步提高模型的推理能力?这些都是未来研究中需要解决的问题。

论文地址:https://arxiv.org/abs/2407.01687

目录
相关文章
|
2月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
2月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
271 1
|
2月前
|
人工智能 缓存 资源调度
云上AI推理平台全掌握 (4):大模型分发加速
为应对大模型服务突发流量场景,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能,零代码即可轻松完成配置。
|
8天前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
114 1
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
26天前
|
机器学习/深度学习 人工智能 JSON
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。
104 8
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
|
20天前
|
存储 缓存 负载均衡
LLM推理成本直降60%:PD分离在大模型商业化中的关键价值
在LLM推理中,Prefill(计算密集)与Decode(访存密集)阶段特性不同,分离计算可提升资源利用率。本文详解vLLM框架中的PD分离实现及局限,并分析Dynamo、Mooncake、SGLang等主流方案,探讨KV缓存、传输机制与调度策略,助力LLM推理优化。建议点赞收藏,便于后续查阅。
408 1
|
2月前
|
机器学习/深度学习 负载均衡 C++
MoR vs MoE架构对比:更少参数、更快推理的大模型新选择
本文将深入分析递归混合(MoR)与专家混合(MoE)两种架构在大语言模型中的技术特性差异,探讨各自的适用场景和实现机制,并从架构设计、参数效率、推理性能等多个维度进行全面对比。
195 0
MoR vs MoE架构对比:更少参数、更快推理的大模型新选择
|
2月前
|
数据采集 编解码 人工智能
Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!
6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。
407 1

热门文章

最新文章