ICML 2024:脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 【6月更文挑战第4天】在ICML 2024上,研究团队提出了傅立叶变换微调(FourierFT),一种减少训练参数的新方法,替代了依赖LoRA的微调。FourierFT通过学习权重变化矩阵的稀疏频谱系数,实现了LFMs的高效微调。在多项任务上,FourierFT展示出与LoRA相当或更优的性能,参数量却大幅减少,如在LLaMA2-7B模型上,仅需0.064M参数,对比LoRA的33.5M。广泛实验验证了其在NLP和CV任务上的效果,但未来还需探索其适用性和泛化能力。论文链接:[arxiv.org/abs/2405.03003](https://arxiv.org/abs/2405.03003)

在2024年的国际机器学习会议(ICML)上,一项引人注目的研究突破吸引了众多学者的目光。这项由Ziqi Gao、Qichao Wang、Aochuan Chen、Zijing Liu、Bingzhe Wu、Liang Chen和Jia Li共同完成的工作,提出了一种新型的微调方法——傅立叶变换微调(Fourier Transform for Fine-Tuning,简称FourierFT)。这种方法以其显著减少训练参数的能力,成功脱离了以往依赖低秩矩阵的LoRA(Low-rank Adaptation)架构,为大型基础模型(Large Foundation Models,简称LFMs)的微调开辟了新的道路。

FourierFT的核心思想是利用傅立叶变换的强大表达能力,通过学习权重变化矩阵的一小部分频谱系数来实现对模型的微调。具体而言,该方法将权重变化矩阵视作空间域中的矩阵,并只学习其频谱域中的稀疏系数。通过这些训练得到的频谱系数,结合逆离散傅立叶变换(Inverse Discrete Fourier Transform,简称IDFT),恢复权重变化矩阵。

这项工作之所以引人注目,是因为它在多个任务上展示了与LoRA相当或更优的性能,同时大幅减少了可训练参数的数量。例如,在对LLaMA2-7B模型进行指令微调时,FourierFT仅使用了0.064M的可训练参数,而LoRA则需要33.5M。这种参数效率的显著提升,不仅减轻了存储和内存的负担,也为移动设备等资源受限环境中的应用提供了可能。

为了验证FourierFT的有效性,研究团队在自然语言处理(NLP)和计算机视觉(CV)领域内的多个任务上进行了广泛的实验。这些任务包括自然语言理解(GLUE基准测试)、自然语言生成(E2E基准测试)、指令微调和图像分类(使用视觉变换器)。实验结果表明,FourierFT在这些任务上均能实现与LoRA相当或更优的性能,同时显著减少了所需的可训练参数。

在自然语言理解任务中,FourierFT在GLUE基准测试的六个数据集上均展现出了优异的性能。在自然语言生成任务中,FourierFT在E2E基准测试中的表现也令人印象深刻。在指令微调任务中,即使是在参数数量远低于LoRA的情况下,FourierFT也能够与LoRA的性能相媲美。在图像分类任务中,FourierFT同样证明了其有效性,它在多个图像分类数据集上的表现与LoRA相当,甚至在某些情况下还略有超越。

肯定的是,FourierFT在减少训练参数数量方面取得了显著的成果,这对于需要大量计算资源的深度学习模型来说是一个巨大的进步。它的提出,不仅为大型基础模型的微调提供了一种更为高效的选择,也为资源受限的设备上部署这些模型提供了可能性。此外,FourierFT的提出也是对现有微调方法的一种有益补充,它展示了在保持或提升模型性能的同时,如何通过技术创新来优化模型的存储和计算需求。

然而,任何新技术的提出都不是完美无缺的。FourierFT虽然在减少参数数量上表现出色,但在实际应用中可能还会遇到一些挑战。例如,FourierFT的性能在不同类型的任务和模型上可能会有差异,这需要进一步的研究来探索其适用性和局限性。此外,作为一种新兴的技术,FourierFT还需要在更多的任务和数据集上进行测试,以验证其泛化能力和稳定性。

论文地址:https://arxiv.org/abs/2405.03003

目录
相关文章
|
1月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
132 66
|
29天前
|
机器学习/深度学习 人工智能
清华研究登Nature,首创全前向智能光计算训练架构,戴琼海、方璐领衔
【8月更文挑战第30天】清华大学研究人员在《自然》杂志上发表了一项开创性成果,提出了一种全前向智能光计算训练架构,解决了传统光学AI方法依赖电子计算机模拟和优化的问题,实现了光学系统的自学习和自设计。该架构通过将光学系统映射到参数化神经网络中,消除了反向传播需求,展示了在多个领域的广泛应用前景,如深度光学神经网络和高分辨率散射成像等。这一成果为光学AI的发展开辟了新道路,但实际应用中仍需克服一些挑战。论文详情见:https://www.nature.com/articles/s41586-024-07687-4
29 2
|
1月前
|
机器学习/深度学习 分布式计算 Cloud Native
云原生架构下的高性能计算解决方案:利用分布式计算资源加速机器学习训练
【8月更文第19天】随着大数据和人工智能技术的发展,机器学习模型的训练数据量和复杂度都在迅速增长。传统的单机训练方式已经无法满足日益增长的计算需求。云原生架构为高性能计算提供了新的可能性,通过利用分布式计算资源,可以在短时间内完成大规模数据集的训练任务。本文将探讨如何在云原生环境下搭建高性能计算平台,并展示如何使用 PyTorch 和 TensorFlow 这样的流行框架进行分布式训练。
63 2
|
3月前
|
机器学习/深度学习 人工智能 算法
【人工智能】第二部分:ChatGPT的架构设计和训练过程
【人工智能】第二部分:ChatGPT的架构设计和训练过程
135 4
|
3月前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
49 3
|
4月前
|
人工智能 自然语言处理
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
【5月更文挑战第27天】普林斯顿Meta团队推出Lory,这是一种完全可微的MoE语言模型架构,用于解决大模型的效率问题。Lory采用因果分段路由和相似性批处理,提高专家合并效率并促进专业化。在150B token的预训练后,Lory在困惑度和下游任务上优于密集模型,显示了可微MoE架构的潜力。不过,Lory仍有优化空间,包括专家选择策略、计算效率和实际应用验证。[论文链接](https://arxiv.org/abs/2405.03133)
72 1
|
3月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
263 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|
9月前
|
机器学习/深度学习 存储 JSON
Azure - 机器学习:使用自动化机器学习训练计算机视觉模型的数据架构
Azure - 机器学习:使用自动化机器学习训练计算机视觉模型的数据架构
57 0
|
人工智能 缓存 并行计算
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
892 0

热门文章

最新文章