❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🎧 “推理效率革命!复旦团队推出MHA2MLA:LLM推理成本直降92%,性能损失仅0.5%!”
大家好,我是蚝油菜花。你是否也遇到过——
- 👉 大模型推理时内存占用过高,硬件成本飙升
- 👉 长文本处理任务中,KV缓存成为性能瓶颈
- 👉 资源受限的边缘设备无法高效运行大模型...
今天揭秘的 MHA2MLA,由复旦大学、华东师范大学、上海AI Lab等机构联合推出,通过引入多头潜在注意力机制(MLA),显著优化基于Transformer的LLM推理效率,降低推理成本。MHA2MLA仅需使用原始数据的0.3%到0.6%进行微调,就能在大幅减少KV缓存(如92.19%)的同时,将性能损失控制在极小范围内(如LongBench性能仅下降0.5%)。接下来,我们将深入解析这一技术的核心原理与应用场景。
🚀 快速阅读
MHA2MLA是一种优化LLM推理效率的数据高效微调方法。
- 核心功能:显著减少KV缓存,降低推理内存占用,同时保持模型性能。
- 技术原理:基于Partial-RoPE和低秩近似技术,优化注意力机制的计算效率。
MHA2MLA 是什么
MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效微调方法,基于引入多头潜在注意力机制(MLA),优化任何基于Transformer的LLM的推理效率,降低推理成本。
MHA2MLA基于两个关键策略实现:一是partial-RoPE,移除对注意力分数贡献较小的查询和键的旋转位置编码(RoPE)维度;二是低秩近似,基于联合奇异值分解(SVD)对键和值进行压缩,减少KV缓存的内存占用。MHA2MLA仅需使用原始数据的0.3%到0.6%进行微调,能在大幅减少KV缓存(如92.19%)的同时,将性能损失控制在极小范围内(如LongBench性能仅下降0.5%)。
MHA2MLA 的主要功能
- 显著减少KV缓存:基于低秩压缩技术,将KV缓存的大小大幅减少(最高可达96.87%),降低推理时的内存占用。
- 保持模型性能:在极低的数据量(0.3%到0.6%的原始训练数据)下进行微调,将性能损失控制在极小范围内(如LongBench性能仅下降0.5%)。
- 与现有技术兼容:与量化技术(如4-bit量化)结合使用,进一步提升推理效率。
- 数据高效性:仅需少量数据即可完成从MHA到MLA的架构转换,适合在资源受限的环境中快速部署。
MHA2MLA 的技术原理
- Partial-RoPE(部分旋转位置编码):在MHA中,旋转位置编码(RoPE)基于旋转操作将位置信息融入查询向量(Q)和键向量(K),帮助模型捕捉序列中的位置关系。基于计算每个维度对注意力分数的贡献,移除贡献较小的RoPE维度(即“不重要的”维度),减少计算量和内存占用。这一过程称为“部分RoPE”,在保留关键位置信息的同时,为低秩压缩腾出空间。
- 低秩近似(Low-Rank Approximation):MLA基于低秩联合压缩键值(KV)减少内存占用。MHA2MLA借鉴这一思想,对MHA中的键和值参数矩阵进行奇异值分解(SVD)。将键和值矩阵分解为低秩矩阵的乘积,用更少的参数近似原始矩阵。为更好地保留键和值之间的交互信息,MHA2MLA联合SVD(SVDjoint)策略,对键和值矩阵进行联合分解,而不是分别处理。
资源
- GitHub 仓库:https://github.com/JT-Ushio/MHA2MLA
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦