NeurIPS 2024 (Oral):如何量化与提升思维链的推理能力边界?

简介: 论文提出推理边界框架(RBF),通过定义推理边界(RB)及其组合定律,提供了一种量化CoT上限的新方法,并提出了三种类别的RB及优化策略。该研究在27个模型和5个任务上进行了广泛实验,验证了RBF的有效性,为理解与优化LLMs的推理能力提供了新见解。此外,MIT的一项研究探讨了完全微调和低秩适配(LoRA)的差异。尽管两者在模型准确性上相似,但它们在谱结构、泛化行为和参数空间访问方面存在显著不同。完全微调保留了预训练模型的大部分谱结构,而LoRA引入了“入侵维度”,导致在多任务学习中的泛化能力较差。研究还提出了一些减少入侵维度影响的方法,以改善LoRA模型的表现。

在大型语言模型(LLMs)的复杂推理任务中,思维链(Chain-of-Thought,CoT)推理方法展现出了巨大的潜力。然而,尽管已有研究试图解释CoT的机制,但目前仍存在两个主要挑战:缺乏量化CoT能力的指标和优化CoT性能的指导。为了解决这些问题,一篇发表在NeurIPS 2024上的论文提出了一种新颖的推理边界框架(Reasoning Boundary Framework,RBF)。

该论文首先定义了推理边界(Reasoning Boundary,RB),用于量化CoT的上限,并建立了RB的组合定律,为各种实际CoT任务提供了一种可行的量化方法。此外,论文还提出了三种类别的RB,并通过关注RB提升和推理路径优化的组合定律来优化这些类别,从而改善CoT性能。

通过在27个模型和5个任务上进行广泛的实验,该研究验证了所提框架的存在性和合理性。同时,它还解释了10种CoT策略的有效性,并从两个角度提供了优化指导。这篇论文有望为理解LLMs中推理的边界和优化策略提供全面的见解。

这篇论文的创新之处在于引入了推理边界的概念,为CoT能力的量化提供了一种新方法。通过定义RB和建立其组合定律,研究人员能够更准确地评估不同模型和任务中的CoT性能。此外,提出的三种类别的RB和相应的优化策略为改善CoT性能提供了具体的指导。

为了验证所提框架的有效性,研究人员在多个模型和任务上进行了广泛的实验。实验结果表明,RBF能够准确量化CoT的上限,并解释不同CoT策略的有效性。此外,通过应用优化策略,研究人员能够显著改善CoT性能,进一步证明了RBF的实用性。

RBF的提出不仅在理论上具有重要意义,而且在实际应用中也具有潜在的价值。通过量化CoT能力并提供优化策略,RBF可以帮助研究人员和开发者更好地理解和改进LLMs的推理能力。这对于开发更智能、更可靠的人工智能系统具有重要意义。

尽管RBF在量化和优化CoT能力方面取得了显著进展,但仍存在一些局限性。例如,RB的定义和组合定律可能需要进一步细化和完善,以适应更复杂的推理任务。此外,优化策略的适用性也可能受到特定模型和任务的限制。

未来的工作可以集中在以下几个方向:首先,进一步探索RB的定义和组合定律,以提供更准确和通用的量化方法。其次,研究更有效的优化策略,以改善不同模型和任务中的CoT性能。最后,将RBF应用于更广泛的领域和任务,以验证其通用性和实用性。

论文链接:https://arxiv.org/abs/2410.05695

LoRA、完全微调到底有何不同?MIT 21页论文讲明白了

在大型语言模型(LLM)的领域中,微调(fine-tuning)是一种至关重要的范式,用于将预训练模型适配到下游任务中。最近,诸如低秩适配(LoRA)等方法被证明在大幅减少可训练参数数量的同时,能够与完全微调的模型相媲美。然而,即使两种方法在学习的模型准确性上相似,它们的学习解决方案是否真的等价呢?

为了研究不同微调方法如何改变预训练模型,本文通过分析模型权重矩阵的谱特性,探讨了完全微调和LoRA的差异。具体来说,研究者比较了两种方法在微调过程中引入的谱差异,并评估了这些差异对模型泛化行为的影响。

主要发现

  1. 谱结构的差异:

    • 完全微调:在微调过程中,完全微调保留了预训练模型的大部分谱结构,即权重矩阵的奇异值分解(SVD)结果与预训练模型相似。
    • LoRA:相比之下,LoRA在微调过程中引入了所谓的“入侵维度”,即与预训练模型的奇异向量近似正交的奇异向量。这些入侵维度在完全微调中并未出现。
  2. 泛化行为的差异:

    • 完全微调:完全微调的模型在目标任务上表现出色,并且在测试集上具有较好的泛化能力,即使测试数据与训练数据的分布有所不同。
    • LoRA:尽管LoRA在目标任务上的表现与完全微调相当,但当测试数据超出目标任务的分布时,LoRA模型的泛化能力较差。具体来说,LoRA模型在处理多个任务的连续学习时,对先前学习的任务表现出更多的遗忘。
  3. 参数空间的访问差异:

    • 研究结果表明,即使LoRA和完全微调在目标任务上表现相同,它们在参数空间中访问的区域也不同。LoRA通过引入入侵维度,可能访问了与完全微调不同的参数子空间。

入侵维度的分析

  • 入侵维度的出现:LoRA通过其独特的参数化方式,即权重更新表示为两个低秩矩阵的乘积,引入了入侵维度。这种参数化方式可能导致了与预训练模型不同的谱结构。
  • 入侵维度的不利影响:入侵维度的存在与LoRA模型在处理多个任务时的较差泛化能力以及对预训练分布的更多遗忘有关。
  • 减少入侵维度的影响:研究者提出了一些方法来减少入侵维度的影响,例如增加LoRA的秩或采用秩稳定技术。这些方法可以改善LoRA模型的泛化能力和对预训练分布的保留。

论文地址:https://arxiv.org/pdf/2410.21228v1

目录
相关文章
|
8月前
|
机器学习/深度学习 存储 计算机视觉
北京大学提出 PTQ4ViT | 双均匀量化+Hessian引导度量,推进Transformer模型落地
北京大学提出 PTQ4ViT | 双均匀量化+Hessian引导度量,推进Transformer模型落地
181 1
|
5天前
|
人工智能 数据安全/隐私保护
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理
普林斯顿大学和耶鲁大学研究人员发布报告,探讨链式思维(CoT)提示对大型语言模型(LLM)推理能力的影响。研究通过移位密码任务,揭示了三个关键因素:任务输出概率、预训练阶段的隐性学习及中间操作数量(噪声推理)。实验使用GPT-4、Claude 3和Llama 3.1模型,发现CoT提示可显著提升模型准确性,但也存在局限性。论文地址:https://arxiv.org/abs/2407.01687。
60 29
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
KDD 2024:港大黄超团队深度解析大模型在图机器学习领域的未知边界
【8月更文挑战第12天】在KDD 2024会议中,香港大学黄超团队深入探讨了大型语言模型在图机器学习的应用与前景。他们提出将LLMs与图神经网络结合可显著增强图任务性能,并归纳出四种融合模式,为领域发展提供新视角与未来路径。论文详细分析了现有方法的优势与局限,并展望了多模态数据处理等前沿课题。[论文](https://arxiv.org/abs/2405.08011)为图机器学习领域注入了新的活力。
247 61
|
4月前
|
算法 知识图谱
ACL 2024 Oral:我们离真正的多模态思维链推理还有多远?
【9月更文挑战第5天】近年来,多模态思维链推理(MCoT)受到广泛关注,但现有基准仍面临诸多挑战。为此,研究人员提出了M$^3$CoT基准,旨在推动多领域、多步骤、多模态的推理能力发展。M$^3$CoT涵盖科学、数学等多个领域,要求模型进行多步骤推理,并结合文本和视觉信息。尽管当前视觉大语言模型(VLLMs)在M$^3$CoT上的表现不佳,但该基准为MCoT的发展提供了新机遇,未来可从模型改进、数据增强及知识融合等方面进行探索。论文详情见:https://arxiv.org/abs/2405.16473。
63 1
|
8月前
|
机器学习/深度学习 人工智能 关系型数据库
南京大学提出量化特征蒸馏方法QFD | 完美结合量化与蒸馏,让AI落地更进一步!!!
南京大学提出量化特征蒸馏方法QFD | 完美结合量化与蒸馏,让AI落地更进一步!!!
225 0
|
8月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
178 0
|
计算机视觉
大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络
大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络
508 0
|
机器学习/深度学习 数据可视化 自动驾驶
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
205 0
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
119 0
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
|
机器学习/深度学习 算法 数据可视化
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
309 0