在大型语言模型(LLMs)的复杂推理任务中,思维链(Chain-of-Thought,CoT)推理方法展现出了巨大的潜力。然而,尽管已有研究试图解释CoT的机制,但目前仍存在两个主要挑战:缺乏量化CoT能力的指标和优化CoT性能的指导。为了解决这些问题,一篇发表在NeurIPS 2024上的论文提出了一种新颖的推理边界框架(Reasoning Boundary Framework,RBF)。
该论文首先定义了推理边界(Reasoning Boundary,RB),用于量化CoT的上限,并建立了RB的组合定律,为各种实际CoT任务提供了一种可行的量化方法。此外,论文还提出了三种类别的RB,并通过关注RB提升和推理路径优化的组合定律来优化这些类别,从而改善CoT性能。
通过在27个模型和5个任务上进行广泛的实验,该研究验证了所提框架的存在性和合理性。同时,它还解释了10种CoT策略的有效性,并从两个角度提供了优化指导。这篇论文有望为理解LLMs中推理的边界和优化策略提供全面的见解。
这篇论文的创新之处在于引入了推理边界的概念,为CoT能力的量化提供了一种新方法。通过定义RB和建立其组合定律,研究人员能够更准确地评估不同模型和任务中的CoT性能。此外,提出的三种类别的RB和相应的优化策略为改善CoT性能提供了具体的指导。
为了验证所提框架的有效性,研究人员在多个模型和任务上进行了广泛的实验。实验结果表明,RBF能够准确量化CoT的上限,并解释不同CoT策略的有效性。此外,通过应用优化策略,研究人员能够显著改善CoT性能,进一步证明了RBF的实用性。
RBF的提出不仅在理论上具有重要意义,而且在实际应用中也具有潜在的价值。通过量化CoT能力并提供优化策略,RBF可以帮助研究人员和开发者更好地理解和改进LLMs的推理能力。这对于开发更智能、更可靠的人工智能系统具有重要意义。
尽管RBF在量化和优化CoT能力方面取得了显著进展,但仍存在一些局限性。例如,RB的定义和组合定律可能需要进一步细化和完善,以适应更复杂的推理任务。此外,优化策略的适用性也可能受到特定模型和任务的限制。
未来的工作可以集中在以下几个方向:首先,进一步探索RB的定义和组合定律,以提供更准确和通用的量化方法。其次,研究更有效的优化策略,以改善不同模型和任务中的CoT性能。最后,将RBF应用于更广泛的领域和任务,以验证其通用性和实用性。
论文链接:https://arxiv.org/abs/2410.05695
LoRA、完全微调到底有何不同?MIT 21页论文讲明白了
在大型语言模型(LLM)的领域中,微调(fine-tuning)是一种至关重要的范式,用于将预训练模型适配到下游任务中。最近,诸如低秩适配(LoRA)等方法被证明在大幅减少可训练参数数量的同时,能够与完全微调的模型相媲美。然而,即使两种方法在学习的模型准确性上相似,它们的学习解决方案是否真的等价呢?
为了研究不同微调方法如何改变预训练模型,本文通过分析模型权重矩阵的谱特性,探讨了完全微调和LoRA的差异。具体来说,研究者比较了两种方法在微调过程中引入的谱差异,并评估了这些差异对模型泛化行为的影响。
主要发现
谱结构的差异:
- 完全微调:在微调过程中,完全微调保留了预训练模型的大部分谱结构,即权重矩阵的奇异值分解(SVD)结果与预训练模型相似。
- LoRA:相比之下,LoRA在微调过程中引入了所谓的“入侵维度”,即与预训练模型的奇异向量近似正交的奇异向量。这些入侵维度在完全微调中并未出现。
泛化行为的差异:
- 完全微调:完全微调的模型在目标任务上表现出色,并且在测试集上具有较好的泛化能力,即使测试数据与训练数据的分布有所不同。
- LoRA:尽管LoRA在目标任务上的表现与完全微调相当,但当测试数据超出目标任务的分布时,LoRA模型的泛化能力较差。具体来说,LoRA模型在处理多个任务的连续学习时,对先前学习的任务表现出更多的遗忘。
参数空间的访问差异:
- 研究结果表明,即使LoRA和完全微调在目标任务上表现相同,它们在参数空间中访问的区域也不同。LoRA通过引入入侵维度,可能访问了与完全微调不同的参数子空间。
入侵维度的分析
- 入侵维度的出现:LoRA通过其独特的参数化方式,即权重更新表示为两个低秩矩阵的乘积,引入了入侵维度。这种参数化方式可能导致了与预训练模型不同的谱结构。
- 入侵维度的不利影响:入侵维度的存在与LoRA模型在处理多个任务时的较差泛化能力以及对预训练分布的更多遗忘有关。
- 减少入侵维度的影响:研究者提出了一些方法来减少入侵维度的影响,例如增加LoRA的秩或采用秩稳定技术。这些方法可以改善LoRA模型的泛化能力和对预训练分布的保留。