NeurIPS 2024 (Oral):如何量化与提升思维链的推理能力边界?

简介: 论文提出推理边界框架(RBF),通过定义推理边界(RB)及其组合定律,提供了一种量化CoT上限的新方法,并提出了三种类别的RB及优化策略。该研究在27个模型和5个任务上进行了广泛实验,验证了RBF的有效性,为理解与优化LLMs的推理能力提供了新见解。此外,MIT的一项研究探讨了完全微调和低秩适配(LoRA)的差异。尽管两者在模型准确性上相似,但它们在谱结构、泛化行为和参数空间访问方面存在显著不同。完全微调保留了预训练模型的大部分谱结构,而LoRA引入了“入侵维度”,导致在多任务学习中的泛化能力较差。研究还提出了一些减少入侵维度影响的方法,以改善LoRA模型的表现。

在大型语言模型(LLMs)的复杂推理任务中,思维链(Chain-of-Thought,CoT)推理方法展现出了巨大的潜力。然而,尽管已有研究试图解释CoT的机制,但目前仍存在两个主要挑战:缺乏量化CoT能力的指标和优化CoT性能的指导。为了解决这些问题,一篇发表在NeurIPS 2024上的论文提出了一种新颖的推理边界框架(Reasoning Boundary Framework,RBF)。

该论文首先定义了推理边界(Reasoning Boundary,RB),用于量化CoT的上限,并建立了RB的组合定律,为各种实际CoT任务提供了一种可行的量化方法。此外,论文还提出了三种类别的RB,并通过关注RB提升和推理路径优化的组合定律来优化这些类别,从而改善CoT性能。

通过在27个模型和5个任务上进行广泛的实验,该研究验证了所提框架的存在性和合理性。同时,它还解释了10种CoT策略的有效性,并从两个角度提供了优化指导。这篇论文有望为理解LLMs中推理的边界和优化策略提供全面的见解。

这篇论文的创新之处在于引入了推理边界的概念,为CoT能力的量化提供了一种新方法。通过定义RB和建立其组合定律,研究人员能够更准确地评估不同模型和任务中的CoT性能。此外,提出的三种类别的RB和相应的优化策略为改善CoT性能提供了具体的指导。

为了验证所提框架的有效性,研究人员在多个模型和任务上进行了广泛的实验。实验结果表明,RBF能够准确量化CoT的上限,并解释不同CoT策略的有效性。此外,通过应用优化策略,研究人员能够显著改善CoT性能,进一步证明了RBF的实用性。

RBF的提出不仅在理论上具有重要意义,而且在实际应用中也具有潜在的价值。通过量化CoT能力并提供优化策略,RBF可以帮助研究人员和开发者更好地理解和改进LLMs的推理能力。这对于开发更智能、更可靠的人工智能系统具有重要意义。

尽管RBF在量化和优化CoT能力方面取得了显著进展,但仍存在一些局限性。例如,RB的定义和组合定律可能需要进一步细化和完善,以适应更复杂的推理任务。此外,优化策略的适用性也可能受到特定模型和任务的限制。

未来的工作可以集中在以下几个方向:首先,进一步探索RB的定义和组合定律,以提供更准确和通用的量化方法。其次,研究更有效的优化策略,以改善不同模型和任务中的CoT性能。最后,将RBF应用于更广泛的领域和任务,以验证其通用性和实用性。

论文链接:https://arxiv.org/abs/2410.05695

LoRA、完全微调到底有何不同?MIT 21页论文讲明白了

在大型语言模型(LLM)的领域中,微调(fine-tuning)是一种至关重要的范式,用于将预训练模型适配到下游任务中。最近,诸如低秩适配(LoRA)等方法被证明在大幅减少可训练参数数量的同时,能够与完全微调的模型相媲美。然而,即使两种方法在学习的模型准确性上相似,它们的学习解决方案是否真的等价呢?

为了研究不同微调方法如何改变预训练模型,本文通过分析模型权重矩阵的谱特性,探讨了完全微调和LoRA的差异。具体来说,研究者比较了两种方法在微调过程中引入的谱差异,并评估了这些差异对模型泛化行为的影响。

主要发现

  1. 谱结构的差异:

    • 完全微调:在微调过程中,完全微调保留了预训练模型的大部分谱结构,即权重矩阵的奇异值分解(SVD)结果与预训练模型相似。
    • LoRA:相比之下,LoRA在微调过程中引入了所谓的“入侵维度”,即与预训练模型的奇异向量近似正交的奇异向量。这些入侵维度在完全微调中并未出现。
  2. 泛化行为的差异:

    • 完全微调:完全微调的模型在目标任务上表现出色,并且在测试集上具有较好的泛化能力,即使测试数据与训练数据的分布有所不同。
    • LoRA:尽管LoRA在目标任务上的表现与完全微调相当,但当测试数据超出目标任务的分布时,LoRA模型的泛化能力较差。具体来说,LoRA模型在处理多个任务的连续学习时,对先前学习的任务表现出更多的遗忘。
  3. 参数空间的访问差异:

    • 研究结果表明,即使LoRA和完全微调在目标任务上表现相同,它们在参数空间中访问的区域也不同。LoRA通过引入入侵维度,可能访问了与完全微调不同的参数子空间。

入侵维度的分析

  • 入侵维度的出现:LoRA通过其独特的参数化方式,即权重更新表示为两个低秩矩阵的乘积,引入了入侵维度。这种参数化方式可能导致了与预训练模型不同的谱结构。
  • 入侵维度的不利影响:入侵维度的存在与LoRA模型在处理多个任务时的较差泛化能力以及对预训练分布的更多遗忘有关。
  • 减少入侵维度的影响:研究者提出了一些方法来减少入侵维度的影响,例如增加LoRA的秩或采用秩稳定技术。这些方法可以改善LoRA模型的泛化能力和对预训练分布的保留。

论文地址:https://arxiv.org/pdf/2410.21228v1

目录
相关文章
|
11月前
|
机器学习/深度学习 人工智能 算法
UCLA、MIT数学家推翻39年经典数学猜想!AI证明卡在99.99%,人类最终证伪
近日,加州大学洛杉矶分校和麻省理工学院的数学家团队成功推翻了存在39年的“上下铺猜想”(Bunkbed Conjecture),该猜想由1985年提出,涉及图论中顶点路径问题。尽管AI在研究中发挥了重要作用,但最终未能完成证明。人类数学家通过深入分析与创新思维,找到了推翻猜想的关键证据,展示了人类智慧在数学证明中的不可替代性。成果发表于arXiv,引发了关于AI在数学领域作用的广泛讨论。
350 89
|
11月前
|
人工智能 自然语言处理 自动驾驶
当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架
马里兰大学研究人员提出AutoHallusion框架,旨在通过自动化生成幻觉图像和问题对,深入研究大型视觉语言模型(LVLMs)中的幻觉现象。幻觉指LVLMs生成与图像内容不符的描述,限制其广泛应用。AutoHallusion通过异常对象插入、配对对象插入和相关对象删除三种策略,揭示LVLMs在处理视觉信息时的弱点。实验结果显示,该框架能在多种SOTA模型上以高成功率引发幻觉,为改进模型提供宝贵线索。未来将提升图像质量和扩展问题设计范围。论文链接:https://arxiv.org/pdf/2406.10900
194 27
|
11月前
|
Go 数据安全/隐私保护
Golang 里的 AES、DES、3DES 加解密,支持 ECB、CBC 等多种模式组合
Openssl encryption 是 OpenSSL 库的功能包装,支持对称加密算法(AES、DES、3DES)的 ECB 和 CBC 模式。提供简便的 Go 语言接口,用于加密和解密操作。安装命令:`go get -u github.com/forgoer/openssl`。示例代码展示了 AES-ECB、AES-CBC 等模式的使用方法,支持 PKCS7 填充。
298 99
|
10月前
|
分布式计算 数据可视化 数据挖掘
Pandas数据应用:社交媒体分析
本文介绍如何使用Pandas进行社交媒体数据分析,涵盖数据获取、预处理、探索性分析和建模的完整流程。通过API获取数据并转换为DataFrame格式,处理缺失值和数据类型转换问题。利用Matplotlib等库进行可视化,展示不同类型帖子的数量分布。针对大规模数据集提供内存优化方案,并结合TextBlob进行情感分析。最后总结常见问题及解决方案,帮助读者掌握Pandas在社交媒体数据分析中的应用。
312 96
|
10月前
|
弹性计算 Ubuntu Linux
阿里云系统运维管理OOS一键安装宝塔面板,这个功能太牛了!
宝塔面板是实用的服务器管理工具,支持多种操作系统(如Ubuntu、CentOS等)。通过阿里云OOS可一键安装。安装前提包括ECS实例运行中且有公网,安全组需开放8888端口。安装步骤简单,进入ECS控制台选择预装应用并确认下单,完成后在控制台查看详情和登录信息。最后验证安装结果,确保能成功访问宝塔面板URL。
525 82
|
11月前
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
11848 34
Qwen2.5-7B-Instruct Lora 微调
|
10月前
|
机器学习/深度学习 运维 监控
利用深度学习进行系统健康监控:智能运维的新纪元
利用深度学习进行系统健康监控:智能运维的新纪元
345 30
|
11月前
|
算法 安全 Go
Go 语言中实现 RSA 加解密、签名验证算法
随着互联网的发展,安全需求日益增长。非对称加密算法RSA成为密码学中的重要代表。本文介绍如何使用Go语言和[forgoer/openssl](https://github.com/forgoer/openssl)库简化RSA加解密操作,包括秘钥生成、加解密及签名验证。该库还支持AES、DES等常用算法,安装简便,代码示例清晰易懂。
292 12
|
存储 人工智能 数据库
通义灵码与云计算平台的融合:基础与概述
在数字化时代,云计算已成为企业和开发者构建应用的核心基石,其高可用性、可扩展性和成本效益等优势重塑了IT架构。通义灵码作为先进的人工智能代码生成工具,能将自然语言转换为高质量代码,大幅提高开发效率。本文将探讨通义灵码与云计算平台的融合,开启开发新纪元。
通义灵码与云计算平台的融合:基础与概述
|
11月前
|
自然语言处理 搜索推荐 算法
如何利用电商API接口打造个性化购物体验
在数字化时代,电子商务竞争激烈,传统购物体验难以满足消费者的个性化需求。电商平台需通过创新提供定制化服务,而电商API接口作为系统连接的桥梁,提供了强大技术支持。本文探讨如何利用电商API打造个性化购物体验,涵盖其在个性化推荐、定制营销和智能客服等方面的应用,并提出实施策略与未来展望。通过数据收集与分析、算法设计及智能系统建设,电商平台可显著提升用户体验和满意度,推动业务增长。成功案例如亚马逊、淘宝和Zappos展示了个性化服务的巨大潜力,同时也指出了面临的挑战及应对措施。
689 9