基于重要性加权的LLM自我改进:考虑分布偏移的新框架

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文提出一种新的大型语言模型(LLM)自我改进框架——基于重要性加权的自我改进(IWSI),旨在优化自动生成数据的质量。通过引入DS权重指标衡量数据的分布偏移程度(DSE),该方法不仅能确保答案正确性,还能过滤掉那些虽正确但分布上偏离较大的样本,以提升自我训练的效果。IWSI使用一个小的有效数据集来估算每个自生成样本的DS权重,并据此进行筛选。实验结果显示,相比于仅依赖答案正确性的传统方法,IWSI能更有效地提高LLM在多种任务上的表现。特别是在数学问题解答任务上,相较于基线方法,IWSI带来了显著的性能提升,证实了过滤高DSE样本的重要性及该方法的有效性。

LLM自我改进的典型范式是在自生成数据上训练LLM,但是其中的部分数据可能有害,所以应该被过滤掉。但是目前的工作主要采用基于答案正确性的过滤策略,在这篇论文中,证明过滤掉正确但具有高分布偏移程度(DSE)的样本也可以有利于自我改进的结果。

论文的主要贡献如下:

  • 提出了一个称为DS权重的指标,借助一个微小的有效集来近似LLM自生成数据的DSE
  • 利用DS权重,构建了一个新颖的自我改进框架,称为基于重要性加权的自我改进(IWSI),其中过滤策略同时考虑了答案正确性和DSE
  • 实证检验了论文提出方法的有效性,分析了高DSE样本对LLM自我改进的影响,并探讨了DS权重如何与其他过滤标准相互作用

方法论

给定一个无监督(仅问题)数据集D𝑞,首先使用预训练的LLM M𝐿使用CoT提示每个问题生成多个候选答案以及推理思路,然后IWSI使用多数投票选择最一致的答案和相应的思路,存储在过滤后的数据集D𝑐中在微小有效集D𝑣的帮助下,IWSI计算D𝑐中每个数据点的DS权重。IWSI通过保留DS权重最低的𝑘%样本将D𝑐过滤成D𝑑𝑠,最后对M𝐿进行自我训练

1、候选答案生成和自一致性过滤

在这个阶段,让预训练的LLM M𝐿为仅包含未标记问题的无监督数据集D𝑞生成候选答案和推理思路,给定一个问题𝑞𝑖 ∈ D𝑞,将少量样本CoT提示与𝑞𝑖连接形成输入文本𝑥𝑖。在温度𝑇 > 0的情况下,让M𝐿采样𝑚个候选答案[𝑎𝑖1 , 𝑎𝑖2 , . . . , 𝑎𝑖𝑚]及其推理思路[𝑟𝑖1 , 𝑟𝑖2 , . . . , 𝑟𝑖𝑚]。然后通过多数投票选择最一致的答案𝑎ˆ𝑖

并保留相应的推理思路𝑅𝑖 = {𝑟𝑖 𝑗 |𝑎𝑖 𝑗 = 𝑎ˆ𝑖 , 1 ≤ 𝑗 ≤ 𝑚},通过对D𝑞中的每个问题重复这个过程,构建了一致性过滤后的数据集D𝑐

2、DS权重计算

分布偏移问题表示训练数据和测试数据是从两个不同的分布𝑝𝑡𝑟𝑎𝑖𝑛和𝑝𝑡𝑒𝑠𝑡中抽取的,且𝑝𝑡𝑟𝑎𝑖𝑛 ≠ 𝑝𝑡𝑒𝑠𝑡。分布偏移的一个常见假设是存在一个函数𝑤∗(𝑥),满足:

对于x的任何函数,重要性加权方法[3][4]通过两个步骤处理分布偏移:权重估计为𝑤∗(𝑥)找到一个合适的解;加权分类通过将上述等式中的𝑓替换为目标损失函数来训练模型.为简化问题,DIW[5]在有效集的帮助下提供了一个经验替代目标:

其中𝑁𝑣、𝑁𝑡、𝑥𝑣和𝑥𝑡分别表示有效集的大小、训练集的大小、有效集中的数据和训练集中的数据。M是训练模型,L代表训练损失。

直观理解是,当训练数据分布与有效数据分布相同时,𝑤𝑖 ≡ 1将是上述等式的一个合适解。如果实际𝑤𝑖与1的差异越大,训练分布和有效分布的差异就越大。基于这个想法,首先通过将𝑁𝑡视为1来为𝑥𝑡𝑖设计一个简单的估计𝑤′𝑖:

其中M𝐿是预训练的LLM,L表示sft损失,D𝑣是一个微小的有效集,𝑥𝑡𝑖是一个自生成的训练数据点。然后定义DS权重𝑤𝐷𝑆 𝑖为:

3、利用DS权重改进LLM

通过DS权重测量DSE,能够进一步过滤D𝑐中的自生成数据,排除可能具有较高DSE的数据点,所有数据点根据其DS权重𝑤𝐷𝑆 𝑖进行排序,并选择𝑘-百分位数𝜎𝑘%,使得:

其中|·|表示集合大小,𝑤𝐷𝑆 𝑖是样本𝑥𝑖的相应DS权重

这样只有𝑤𝐷𝑆 𝑖 ≤ 𝜎𝑘%的样本被保留用于训练模型M𝐿。训练损失可以写为:

其中𝟙𝑘%(𝑥𝑖)等于𝟙(𝑤𝐷𝑆 𝑖 ≤ 𝜎𝑘%),L代表sft损失。

实验结果

1、基线

LMSI[6]:首个显著提高LLM推理能力而不需要任何外部监督的自我改进框架。LMSI的核心思想是采用多数投票来选择最可能正确的答案,从而过滤自生成数据

MoT[7]使用熵来衡量答案的不确定性,并进一步过滤数据。作者将这种技术与LMSI结合,并将其称为Entropy-filter

Self-Alignment[8]表明LLM自我评估在过滤策略中可能有帮助。作者用LMSI实现这个想法,并将其称为Self-filter

另外作者还实现了LMSI的一个变体作为参考,即RM-filter。RM-filter使用预训练的奖励模型对生成的数据进行评分,例如GENIE[9]

2、实现细节

使用Llama3-8B作为基础模型在候选答案生成阶段,让基础模型为每个问题生成15个候选答案,温度T = 1.1。每个设备的训练批次大小设置为1,梯度累积步骤为4,使用LoRA进行微调,仅在生成候选答案和评估阶段应用少样本CoT提示。

3、结果

下表显示了所有数据集的准确率结果

评估指标是准确率百分比,所有结果都是通过贪婪解码得出的。顶部是基础模型的性能。中间部分是自我改进基线和论文提出的方法IWSI

作为参考,在表格底部列出了RM-filter的性能,在自我改进方法(中间部分)中,IWSI是唯一一个始终优于LMSI的方法,并且在几乎所有数据集上都达到了最佳效果,这证明了过滤掉具有高DSE的自生成样本对LLM自我改进的有效性

与基础模型相比,LMSI在gsm8k上提升了310%,在SVAMP上提升了206%。IWSI进一步在gsm8k上超过LMSI 34.8%,在SVAMP上超过39.3%

4、超参数研究

下图显示了不同k值的准确率结果

如图所示,k值过大或过小都会导致性能下降。当k很大时,会保留更多具有高DSE的样本,从而可能损害性能;如果k非常小,则保留的样本不足以支持模型训练。最佳k值范围因任务而异。一般来说,约80%是一个适当的选择。

下图显示了DS权重的不同k-百分位数σk%

当k很小时,不同数据集的σk%相似,但随着k的增加,差异变大。这种现象表明样本DSE可被视为"高"的边界是相对的,根据不同的数据集而定。

5、有效集分析

有效集Dv在IWSI中起着至关重要的作用。它决定了DS权重的计算结果,并随后引导过滤策略。有效集组成的变化可能引入随机性,从而导致潜在的不稳定性。下图显示了IWSI前后有效集和自生成样本的分布

与作者的直觉相似,IWSI之前有效集样本和自生成样本之间的分布差异显著,而IWSI之后变得更加接近,说明IWSI在处理分布偏移问题上的有效性

6、正交性分析

在IWSI中,过滤策略考虑了两个因素:答案正确性(由自一致性表示)和样本DSE(由DS权重表示)。在下图中,第一行显示了答案正确性和DSE之间的关系,其中x轴是DSE间隔,y轴表示正确答案和错误答案的比例。第二行是在不同不确定性阈值u*下的DS权重概率密度函数曲线

对于所有数据集,观察到随着DS权重的增加,正确答案的比例普遍呈下降趋势。正确答案的最高比例出现在[1, 1.1)区间(对于gsm8k和ANLI-A1)或[1.1, 1.3)区间(对于StrategyQA),但是正确和错误的答案在每个区间都占据了不可忽视的部分,这表明这两个因素之间存在一定程度的独立性。

7、DSE的感知

比较了同一问题的最高和最低DSE生成答案,发现具有最高DSE的案例通常明显荒谬,很容易将它们与人工编写的样本区分开来,这些样本可以分为3类:

a) 冗余样本:冗余样本在推理思路中包含无关或重复的信息,使其令人困惑。

b) 跳跃样本:跳跃样本省略了重要的推理步骤,甚至直接给出答案,使其在逻辑上不那么流畅。

c) 虚假样本:虚假样本中的推理步骤完全错误。它们只是偶然得到了正确的答案。

总结

这篇论文研究了样本DSE对LLM自我改进的影响,受重要性加权方法的启发,提出DS权重来近似DSE,并提出一个新的框架IWSI,其过滤策略全面考虑了DSE和答案正确性。实验结果表明,纳入DS权重显著提高了LLM自我改进的有效性

论文:https://avoid.overfit.cn/post/f89e3b7f26f04cee892c3700a28618fa

参考文献:

  1. Importance Weighting Can Help Large Language Models Self-Improve by Jiang et al.arXiv:2408.09849
  2. Machine Learning in Non-Stationary Environments — Introduction to Covariate Shift Adaptation. by Sugiyama et al. Adaptive computation and machine learning. MIT Press
  3. Covariate shift adaptation by importance weighted cross validation.by Sugiyama et al. J. Mach. Learn. Res., 8:985–1005
  4. Direct importance estimation with model selection and its application to covariate shift adaptation. by Sugiyama et al. In NIPS, pages 1433–1440
  5. Rethinking importance weighting for deep learning under distribution shift. by Fang et al. In NeurIPS.
  6. Large language models can self-improve.by Huang et al. In EMNLP, pages 1051–1068. Association for Computational Linguistics.
  7. Mot: Memory-of-thoughtenables chatgpt to self-improve. by Li et al. In EMNLP, pages 6354–6374. Association for Computational Linguistics.
  8. Self-alignment with instruction backtranslation. by Li et al. In The Twelfth International Conference on Learning Representations
  9. Genie: Achieving human parity in content-grounded datasets generation. by Yehudai et al. CoRR, abs/2401.14367

作者:SACHIN KUMAR

目录
相关文章
|
8月前
|
数据采集 算法 数据挖掘
CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用
英伟达提出的CLIMB框架,是一种自动化优化大型语言模型(LLM)预训练数据混合的创新方法。通过语义嵌入与聚类技术,CLIMB能系统地发现、评估并优化数据混合策略,无需人工干预。该框架包含数据预处理、迭代自举及最优权重确定三大阶段,结合小型代理模型与性能预测器,高效搜索最佳数据比例。实验表明,基于CLIMB优化的数据混合训练的模型,在多项推理任务中显著超越现有方法,展现出卓越性能。此外,研究还构建了高质量的ClimbMix数据集,进一步验证了框架的有效性。
346 0
CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用
|
9月前
|
人工智能 数据可视化 API
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
529 8
|
12月前
|
机器学习/深度学习 人工智能 算法
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
谷歌提出了一种名为Evolving Alignment via Asymmetric Self-Play(eva)的新RLHF框架,通过创造者和解决者交替优化,生成具有挑战性的提示,提高模型泛化能力、样本效率和对齐鲁棒性。实验结果显示,eva在多个基准上显著提升性能,展示了其创新性和有效性。然而,eva的实现较为复杂,且实际应用中的长期效果仍待验证。
181 5
|
10月前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
7459 80
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
8月前
|
机器学习/深度学习 人工智能 算法
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
RAGEN是一个基于StarPO框架的开源强化学习系统,通过马尔可夫决策过程形式化Agent与环境的交互,支持PPO、GRPO等多种优化算法,显著提升多轮推理训练的稳定性。
888 5
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
|
9月前
|
机器学习/深度学习 人工智能 算法
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架
SWEET-RL是一种基于训练时信息的逐步评估算法,显著提升了多轮大型语言模型(LLM)代理在强化学习中的成功率。相比现有方法,SWEET-RL将成功率提高6%,使小型开源模型如Llama-3.1-8B达到甚至超越GPT-4O等大型专有模型性能。通过非对称Actor-Critic结构、创新优势函数参数化及两阶段训练流程,SWEET-RL优化了信用分配机制与泛化能力,降低了计算成本。ColBench基准测试显示,SWEET-RL在后端编程和前端设计任务中表现卓越,为AI代理训练技术带来突破性进展。
317 2
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架
|
11月前
|
人工智能 知识图谱 Docker
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
KAG 是蚂蚁集团推出的专业领域知识服务框架,通过知识增强提升大型语言模型在特定领域的问答性能,支持逻辑推理和多跳事实问答,显著提升推理和问答的准确性和效率。
3155 46
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
|
10月前
|
人工智能 自然语言处理 数据可视化
Agentic Reasoning:推理界RAG诞生!牛津大学框架让LLM学会『组队打怪』:动态调用搜索/代码代理,复杂任务准确率飙升50%
Agentic Reasoning 是牛津大学推出的增强大型语言模型(LLM)推理能力的框架,通过整合外部工具提升多步骤推理、实时信息检索和复杂逻辑关系组织的能力。
419 1
|
12月前
|
开发框架 人工智能 安全
Promptic:轻量级 LLM 应用开发框架,提供完善的底层功能,使开发者更专注于构建上层功能
Promptic 是一个轻量级的 LLM 应用开发框架,支持通过一行代码切换不同的 LLM 服务提供商。它提供了类型安全的输出、流式支持、内置对话记忆、错误处理和重试等功能,帮助开发者专注于构建功能,而不是底层的复杂性。
257 6
Promptic:轻量级 LLM 应用开发框架,提供完善的底层功能,使开发者更专注于构建上层功能
|
12月前
|
缓存 算法 关系型数据库
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
麻省理工学院韩松团队提出DuoAttention框架,旨在提高大型语言模型(LLM)处理长上下文的效率。该框架通过区分检索头和流式头,仅对检索头应用全键值缓存,减少内存消耗和计算时间,同时保持模型长上下文处理能力。实验结果显示,DuoAttention在多种模型架构上显著提升了推理效率,为LLM的实际应用提供了新可能。
319 14

热门文章

最新文章