ICML 2024:脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 【6月更文挑战第4天】在ICML 2024上,研究团队提出了傅立叶变换微调(FourierFT),一种减少训练参数的新方法,替代了依赖LoRA的微调。FourierFT通过学习权重变化矩阵的稀疏频谱系数,实现了LFMs的高效微调。在多项任务上,FourierFT展示出与LoRA相当或更优的性能,参数量却大幅减少,如在LLaMA2-7B模型上,仅需0.064M参数,对比LoRA的33.5M。广泛实验验证了其在NLP和CV任务上的效果,但未来还需探索其适用性和泛化能力。论文链接:[arxiv.org/abs/2405.03003](https://arxiv.org/abs/2405.03003)

在2024年的国际机器学习会议(ICML)上,一项引人注目的研究突破吸引了众多学者的目光。这项由Ziqi Gao、Qichao Wang、Aochuan Chen、Zijing Liu、Bingzhe Wu、Liang Chen和Jia Li共同完成的工作,提出了一种新型的微调方法——傅立叶变换微调(Fourier Transform for Fine-Tuning,简称FourierFT)。这种方法以其显著减少训练参数的能力,成功脱离了以往依赖低秩矩阵的LoRA(Low-rank Adaptation)架构,为大型基础模型(Large Foundation Models,简称LFMs)的微调开辟了新的道路。

FourierFT的核心思想是利用傅立叶变换的强大表达能力,通过学习权重变化矩阵的一小部分频谱系数来实现对模型的微调。具体而言,该方法将权重变化矩阵视作空间域中的矩阵,并只学习其频谱域中的稀疏系数。通过这些训练得到的频谱系数,结合逆离散傅立叶变换(Inverse Discrete Fourier Transform,简称IDFT),恢复权重变化矩阵。

这项工作之所以引人注目,是因为它在多个任务上展示了与LoRA相当或更优的性能,同时大幅减少了可训练参数的数量。例如,在对LLaMA2-7B模型进行指令微调时,FourierFT仅使用了0.064M的可训练参数,而LoRA则需要33.5M。这种参数效率的显著提升,不仅减轻了存储和内存的负担,也为移动设备等资源受限环境中的应用提供了可能。

为了验证FourierFT的有效性,研究团队在自然语言处理(NLP)和计算机视觉(CV)领域内的多个任务上进行了广泛的实验。这些任务包括自然语言理解(GLUE基准测试)、自然语言生成(E2E基准测试)、指令微调和图像分类(使用视觉变换器)。实验结果表明,FourierFT在这些任务上均能实现与LoRA相当或更优的性能,同时显著减少了所需的可训练参数。

在自然语言理解任务中,FourierFT在GLUE基准测试的六个数据集上均展现出了优异的性能。在自然语言生成任务中,FourierFT在E2E基准测试中的表现也令人印象深刻。在指令微调任务中,即使是在参数数量远低于LoRA的情况下,FourierFT也能够与LoRA的性能相媲美。在图像分类任务中,FourierFT同样证明了其有效性,它在多个图像分类数据集上的表现与LoRA相当,甚至在某些情况下还略有超越。

肯定的是,FourierFT在减少训练参数数量方面取得了显著的成果,这对于需要大量计算资源的深度学习模型来说是一个巨大的进步。它的提出,不仅为大型基础模型的微调提供了一种更为高效的选择,也为资源受限的设备上部署这些模型提供了可能性。此外,FourierFT的提出也是对现有微调方法的一种有益补充,它展示了在保持或提升模型性能的同时,如何通过技术创新来优化模型的存储和计算需求。

然而,任何新技术的提出都不是完美无缺的。FourierFT虽然在减少参数数量上表现出色,但在实际应用中可能还会遇到一些挑战。例如,FourierFT的性能在不同类型的任务和模型上可能会有差异,这需要进一步的研究来探索其适用性和局限性。此外,作为一种新兴的技术,FourierFT还需要在更多的任务和数据集上进行测试,以验证其泛化能力和稳定性。

论文地址:https://arxiv.org/abs/2405.03003

目录
相关文章
|
2月前
|
数据采集 机器学习/深度学习 大数据
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
这篇文章详细介绍了C3D架构在行为检测领域的应用,包括训练和测试步骤,使用UCF101数据集进行演示。
71 1
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
|
4月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
159 66
|
19天前
|
SQL 存储 关系型数据库
MySQL进阶突击系列(01)一条简单SQL搞懂MySQL架构原理 | 含实用命令参数集
本文从MySQL的架构原理出发,详细介绍其SQL查询的全过程,涵盖客户端发起SQL查询、服务端SQL接口、解析器、优化器、存储引擎及日志数据等内容。同时提供了MySQL常用的管理命令参数集,帮助读者深入了解MySQL的技术细节和优化方法。
|
26天前
|
机器学习/深度学习 自然语言处理 物联网
NeurIPS 2024 Oral:小参数,大作为!揭秘非对称 LoRA 架构的高效性能
近期,一篇题为《\model~: 非对称LoRA架构实现高效微调》的论文被NeurIPS 2024接收为口头报告,该研究提出了一种创新的非对称LoRA架构,旨在解决大型语言模型(LLMs)在保持高性能的同时提高训练和部署效率的问题。通过引入共享A矩阵和多个B矩阵,\model~不仅提高了参数效率,还在多个数据集上展示了超越现有PEFT方法的性能,尤其是在多任务域和复杂数据集上的表现尤为突出。此架构还有效减少了训练能耗和延迟,为LLMs的高效应用提供了新思路。
26 4
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Tokenformer:基于参数标记化的高效可扩展Transformer架构
本文是对发表于arXiv的论文 "TOKENFORMER: RETHINKING TRANSFORMER SCALING WITH TOKENIZED MODEL PARAMETERS" 的深入解读与扩展分析。主要探讨了一种革新性的Transformer架构设计方案,该方案通过参数标记化实现了模型的高效扩展和计算优化。
138 0
|
2月前
|
缓存 监控 API
微服务架构下RESTful风格api实践中,我为何抛弃了路由参数 - 用简单设计来提速
本文探讨了 RESTful API 设计中的两种路径方案:动态路径和固定路径。动态路径通过路径参数实现资源的 CRUD 操作,而固定路径则通过查询参数和不同的 HTTP 方法实现相同功能。固定路径设计提高了安全性、路由匹配速度和 API 的可维护性,但也可能增加 URL 长度并降低表达灵活性。通过对比测试,固定路径在性能上表现更优,适合微服务架构下的 API 设计。
|
4月前
|
机器学习/深度学习 人工智能
清华研究登Nature,首创全前向智能光计算训练架构,戴琼海、方璐领衔
【8月更文挑战第30天】清华大学研究人员在《自然》杂志上发表了一项开创性成果,提出了一种全前向智能光计算训练架构,解决了传统光学AI方法依赖电子计算机模拟和优化的问题,实现了光学系统的自学习和自设计。该架构通过将光学系统映射到参数化神经网络中,消除了反向传播需求,展示了在多个领域的广泛应用前景,如深度光学神经网络和高分辨率散射成像等。这一成果为光学AI的发展开辟了新道路,但实际应用中仍需克服一些挑战。论文详情见:https://www.nature.com/articles/s41586-024-07687-4
52 2
|
4月前
|
机器学习/深度学习 分布式计算 Cloud Native
云原生架构下的高性能计算解决方案:利用分布式计算资源加速机器学习训练
【8月更文第19天】随着大数据和人工智能技术的发展,机器学习模型的训练数据量和复杂度都在迅速增长。传统的单机训练方式已经无法满足日益增长的计算需求。云原生架构为高性能计算提供了新的可能性,通过利用分布式计算资源,可以在短时间内完成大规模数据集的训练任务。本文将探讨如何在云原生环境下搭建高性能计算平台,并展示如何使用 PyTorch 和 TensorFlow 这样的流行框架进行分布式训练。
145 2
|
6月前
|
机器学习/深度学习 人工智能 算法
【人工智能】第二部分:ChatGPT的架构设计和训练过程
【人工智能】第二部分:ChatGPT的架构设计和训练过程
164 4
|
6月前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
69 3
下一篇
DataWorks