比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA

简介: 【4月更文挑战第3天】伊利诺伊大学香槟分校和LMFlow团队推出LISA,一种新型微调技术,用于解决大型语言模型的内存消耗问题。LISA基于层重要性采样,随机冻结中间层,降低内存使用,同时提供比LoRA更快的训练速度和更高性能。实验显示,LISA在相似或更低的GPU内存消耗下,超越LoRA和全参数调优。该方法提高了资源受限环境下的微调效率,有望成为LoRA的有效替代,但仍然面临内存限制和随机性影响的问题。

45804b83149530426899b3f2e7a24868.jpeg
随着人工智能技术的飞速发展,大型语言模型(LLMs)在众多领域的应用日益广泛,从文本生成到复杂代码编写,再到类似人类的对话交流,LLMs都展现出了卓越的能力。然而,这些模型在大规模训练时所面临的巨大内存消耗问题,成为了制约其进一步发展的主要障碍。为了解决这一问题,学术界和工业界都在不断探索更为高效的微调技术。

在此背景下,由伊利诺伊大学香槟分校(University of Illinois Urbana-Champaign)联合LMFlow团队提出了一种名为Layerwise Importance Sampled AdamW(LISA)的新型微调方法。这种方法在保持内存消耗与LoRA(Low-Rank Adaptation)相当的同时,实现了比LoRA更快的训练速度和更高的性能,甚至在某些情况下,其性能超过了全参数调优(Full Parameter Training)。

LISA的核心思想是在微调过程中,根据每一层的重要性进行采样,随机冻结大部分中间层,从而减少训练过程中的内存占用。这一策略的灵感来源于LoRA在不同层的权重规范分布中观察到的不寻常的偏斜现象。LoRA在微调任务中的性能虽然尚未达到普遍超越全参数调优的水平,但其在减少可训练参数数量方面的优势是显而易见的。LISA正是基于这一观察,通过重要性采样的方式,对不同层进行差异化处理,从而在保持LoRA优点的基础上,进一步提升了微调的效果。

实验结果表明,LISA在GPU内存消耗相似或更低的情况下,其在下游微调任务中的性能超过了LoRA和全参数调优。特别是在大型模型LLaMA-2-70B上,LISA在多个领域的表现均与LoRA相当,甚至更优。这一发现证明了LISA作为一种有前景的LoRA替代方案,具有巨大的潜力。

LISA方法的提出,对于推动大型语言模型的发展具有重要意义。首先,它提供了一种在资源受限的情况下进行高效微调的新途径,使得大型模型的训练变得更加可行。其次,LISA的内存效率优势,使得在单机上进行高质量微调成为可能,这对于资源有限的研究团队和企业来说是一个福音。最后,LISA在多个任务和不同规模的模型上都展现出了良好的性能,显示了其广泛的适用性和强大的泛化能力。

然而,LISA方法也存在一些局限性。最主要的问题是,与LoRA一样,LISA在优化过程中仍然需要将模型完整地加载到内存中,这在处理极其庞大的模型时可能会导致内存消耗问题。此外,LISA的性能在一定程度上依赖于随机层的选择,这意味着其稳定性和可靠性可能会受到随机性的影响。尽管如此,LISA的提出仍然是大型语言模型微调领域的一个重要进步,它的出现为未来的研究和应用提供了新的思路和工具。

论文链接:https://arxiv.org/abs/2403.17919

目录
相关文章
|
2月前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
41 2
|
5月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
135 65
|
6月前
|
测试技术
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]
104 25
|
5月前
|
存储 机器学习/深度学习 测试技术
模型量化技术综述:揭示大型语言模型压缩的前沿技术
在这篇文章中,我将在语言建模的背景下介绍量化,并逐一探讨各个概念,探索各种方法论、用例以及量化背后的原理。
82 0
模型量化技术综述:揭示大型语言模型压缩的前沿技术
|
6月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
43 2
|
7月前
|
数据采集 机器学习/深度学习 人工智能
可信度超越GPT-4V,清华&面壁揭秘小钢炮模型背后的高效对齐技术
【6月更文挑战第15天】清华大学与面壁智能合作的RLAIF-V框架挑战GPT-4V,通过开源AI反馈增强大语言模型的可信度。该框架利用开放数据和在线学习优化对齐,减少幻觉错误,12B参数模型表现超越GPT-4V。虽有数据质量和稳定性问题,但展示出开源MLLMs潜力。[链接: https://arxiv.org/abs/2405.17220]
138 1
|
7月前
|
机器学习/深度学习 人工智能 算法
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)
99 1
|
8月前
|
机器学习/深度学习 人工智能
谷歌提出大规模ICL方法——强化和无监督
【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]
84 1
|
8月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
113 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
7月前
|
机器学习/深度学习 自然语言处理 物联网
ICML 2024:脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了
【6月更文挑战第4天】在ICML 2024上,研究团队提出了傅立叶变换微调(FourierFT),一种减少训练参数的新方法,替代了依赖LoRA的微调。FourierFT通过学习权重变化矩阵的稀疏频谱系数,实现了LFMs的高效微调。在多项任务上,FourierFT展示出与LoRA相当或更优的性能,参数量却大幅减少,如在LLaMA2-7B模型上,仅需0.064M参数,对比LoRA的33.5M。广泛实验验证了其在NLP和CV任务上的效果,但未来还需探索其适用性和泛化能力。论文链接:[arxiv.org/abs/2405.03003](https://arxiv.org/abs/2405.03003)
139 0

热门文章

最新文章