ICML 2024:脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 【6月更文挑战第4天】在ICML 2024上,研究团队提出了傅立叶变换微调(FourierFT),一种减少训练参数的新方法,替代了依赖LoRA的微调。FourierFT通过学习权重变化矩阵的稀疏频谱系数,实现了LFMs的高效微调。在多项任务上,FourierFT展示出与LoRA相当或更优的性能,参数量却大幅减少,如在LLaMA2-7B模型上,仅需0.064M参数,对比LoRA的33.5M。广泛实验验证了其在NLP和CV任务上的效果,但未来还需探索其适用性和泛化能力。论文链接:[arxiv.org/abs/2405.03003](https://arxiv.org/abs/2405.03003)

在2024年的国际机器学习会议(ICML)上,一项引人注目的研究突破吸引了众多学者的目光。这项由Ziqi Gao、Qichao Wang、Aochuan Chen、Zijing Liu、Bingzhe Wu、Liang Chen和Jia Li共同完成的工作,提出了一种新型的微调方法——傅立叶变换微调(Fourier Transform for Fine-Tuning,简称FourierFT)。这种方法以其显著减少训练参数的能力,成功脱离了以往依赖低秩矩阵的LoRA(Low-rank Adaptation)架构,为大型基础模型(Large Foundation Models,简称LFMs)的微调开辟了新的道路。

FourierFT的核心思想是利用傅立叶变换的强大表达能力,通过学习权重变化矩阵的一小部分频谱系数来实现对模型的微调。具体而言,该方法将权重变化矩阵视作空间域中的矩阵,并只学习其频谱域中的稀疏系数。通过这些训练得到的频谱系数,结合逆离散傅立叶变换(Inverse Discrete Fourier Transform,简称IDFT),恢复权重变化矩阵。

这项工作之所以引人注目,是因为它在多个任务上展示了与LoRA相当或更优的性能,同时大幅减少了可训练参数的数量。例如,在对LLaMA2-7B模型进行指令微调时,FourierFT仅使用了0.064M的可训练参数,而LoRA则需要33.5M。这种参数效率的显著提升,不仅减轻了存储和内存的负担,也为移动设备等资源受限环境中的应用提供了可能。

为了验证FourierFT的有效性,研究团队在自然语言处理(NLP)和计算机视觉(CV)领域内的多个任务上进行了广泛的实验。这些任务包括自然语言理解(GLUE基准测试)、自然语言生成(E2E基准测试)、指令微调和图像分类(使用视觉变换器)。实验结果表明,FourierFT在这些任务上均能实现与LoRA相当或更优的性能,同时显著减少了所需的可训练参数。

在自然语言理解任务中,FourierFT在GLUE基准测试的六个数据集上均展现出了优异的性能。在自然语言生成任务中,FourierFT在E2E基准测试中的表现也令人印象深刻。在指令微调任务中,即使是在参数数量远低于LoRA的情况下,FourierFT也能够与LoRA的性能相媲美。在图像分类任务中,FourierFT同样证明了其有效性,它在多个图像分类数据集上的表现与LoRA相当,甚至在某些情况下还略有超越。

肯定的是,FourierFT在减少训练参数数量方面取得了显著的成果,这对于需要大量计算资源的深度学习模型来说是一个巨大的进步。它的提出,不仅为大型基础模型的微调提供了一种更为高效的选择,也为资源受限的设备上部署这些模型提供了可能性。此外,FourierFT的提出也是对现有微调方法的一种有益补充,它展示了在保持或提升模型性能的同时,如何通过技术创新来优化模型的存储和计算需求。

然而,任何新技术的提出都不是完美无缺的。FourierFT虽然在减少参数数量上表现出色,但在实际应用中可能还会遇到一些挑战。例如,FourierFT的性能在不同类型的任务和模型上可能会有差异,这需要进一步的研究来探索其适用性和局限性。此外,作为一种新兴的技术,FourierFT还需要在更多的任务和数据集上进行测试,以验证其泛化能力和稳定性。

论文地址:https://arxiv.org/abs/2405.03003

目录
相关文章
|
数据采集 机器学习/深度学习 大数据
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
这篇文章详细介绍了C3D架构在行为检测领域的应用,包括训练和测试步骤,使用UCF101数据集进行演示。
476 1
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
|
1月前
|
机器学习/深度学习 数据可视化 网络架构
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
PINNs训练难因多目标优化易失衡。通过设计硬约束网络架构,将初始与边界条件内嵌于模型输出,可自动满足约束,仅需优化方程残差,简化训练过程,提升稳定性与精度,适用于气候、生物医学等高要求仿真场景。
289 4
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
|
7月前
|
机器学习/深度学习 人工智能 文件存储
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
NVIDIA推出的Llama Nemotron系列推理模型,基于Llama架构优化,包含Nano/Super/Ultra三款,在数学推理、编程和工具调用等任务中展现卓越性能。
284 5
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
328 66
|
7月前
|
机器学习/深度学习 人工智能 算法
超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍
字节跳动推出的200B参数混合专家模型,在AIME/Codeforces/GPQA等基准测试中实现多项突破,采用强化学习框架与流式推理系统,支持7大领域复杂推理任务。
463 13
超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍
|
8月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
718 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
7月前
|
机器学习/深度学习 编解码 人工智能
Kimi开源MoE架构多模态推理模型,小激活参数,大能量!
最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。
478 1
|
10月前
|
机器学习/深度学习 人工智能 NoSQL
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
Meta研究团队开发的记忆层技术通过替换Transformer中的前馈网络(FFN),显著提升了大语言模型的性能。记忆层使用可训练的固定键值对,规模达百万级别,仅计算最相似的前k个键值,优化了计算效率。实验显示,记忆层使模型在事实准确性上提升超100%,且在代码生成和通用知识领域表现优异,媲美4倍计算资源训练的传统模型。这一创新对下一代AI架构的发展具有重要意义。
520 11
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
|
11月前
|
SQL 存储 关系型数据库
MySQL进阶突击系列(01)一条简单SQL搞懂MySQL架构原理 | 含实用命令参数集
本文从MySQL的架构原理出发,详细介绍其SQL查询的全过程,涵盖客户端发起SQL查询、服务端SQL接口、解析器、优化器、存储引擎及日志数据等内容。同时提供了MySQL常用的管理命令参数集,帮助读者深入了解MySQL的技术细节和优化方法。
|
机器学习/深度学习 自然语言处理 物联网
NeurIPS 2024 Oral:小参数,大作为!揭秘非对称 LoRA 架构的高效性能
近期,一篇题为《\model~: 非对称LoRA架构实现高效微调》的论文被NeurIPS 2024接收为口头报告,该研究提出了一种创新的非对称LoRA架构,旨在解决大型语言模型(LLMs)在保持高性能的同时提高训练和部署效率的问题。通过引入共享A矩阵和多个B矩阵,\model~不仅提高了参数效率,还在多个数据集上展示了超越现有PEFT方法的性能,尤其是在多任务域和复杂数据集上的表现尤为突出。此架构还有效减少了训练能耗和延迟,为LLMs的高效应用提供了新思路。
334 4