3天把Llama训成Mamba,性能不降,推理更快!

简介: 《Distillation and Acceleration of Hybrid Models》一文由日内瓦大学、Together AI、康奈尔大学和普林斯顿大学的研究者们共同完成,提出了一种将大型Transformer模型(如Llama)转化为线性RNN模型(如Mamba)的新方法。此方法不仅保持了模型性能,还大幅提升了推理速度。研究团队通过多阶段蒸馏及优化,结合预训练权重,在不同聊天基准测试中验证了模型的有效性。详情见:https://arxiv.org/pdf/2408.15237

最近,一篇名为《Distillation and Acceleration of Hybrid Models》的论文引起了广泛关注。该论文由来自日内瓦大学、Together AI、康奈尔大学和普林斯顿大学的研究人员合作完成。论文的主要贡献在于提出了一种将大型Transformer模型(如Llama)转化为线性RNN模型(如Mamba)的方法,并证明了这种转换在保持性能的同时,可以显著提高推理速度。

论文首先回顾了Transformer和线性RNN模型的背景。Transformer模型在深度学习领域取得了巨大成功,推动了大型语言模型(如GPT、Llama和Mistral)的发展。然而,由于Transformer模型在处理长序列时存在二次复杂度和巨大的键值(KV)缓存需求,因此其推理速度较慢。相比之下,线性RNN模型(如Mamba、Mamba2、GLA、RetNet和Griffin)在小到中等规模的受控实验中已经能够超越Transformer模型,并且具有更快的推理速度。

为了解决Transformer模型在推理速度上的瓶颈,研究人员提出了一种将大型Transformer模型转化为线性RNN模型的方法。他们发现,通过重用Transformer模型中的线性投影权重,可以实现这种转换。具体来说,他们提出了一种修改后的Mamba架构,可以直接从预训练的Transformer模型的注意力块进行初始化。然后,他们使用一种多阶段蒸馏方法,包括渐进蒸馏、监督微调和定向偏好优化,来进一步提高模型的性能。

为了验证这种方法的有效性,研究人员在不同的聊天基准测试中进行了实验,包括AlpacaEval和MT-Bench。结果显示,他们提出的混合模型(即部分注意力层被替换为线性RNN层)在性能上与原始Transformer模型相当,甚至在某些情况下表现更好。此外,他们还展示了如何使用一种硬件感知的推测解码算法来加速Mamba和混合模型的推理速度。

然而,尽管这项研究取得了令人鼓舞的成果,但也存在一些限制。首先,研究人员主要关注的是聊天基准测试,而没有在其他任务上进行广泛的评估。其次,他们使用的是预训练的Transformer模型作为教师模型,而没有从头开始训练线性RNN模型。最后,他们使用的是有限的计算资源,而没有使用更大规模的数据集或更强大的计算能力进行训练。

论文地址:https://arxiv.org/pdf/2408.15237

目录
相关文章
|
6月前
|
机器学习/深度学习 安全
ModelScope问题之轮数没有训练完推理有影响如何解决
ModelScope训练是指在ModelScope平台上对机器学习模型进行训练的活动;本合集将介绍ModelScope训练流程、模型优化技巧和训练过程中的常见问题解决方法。
52 0
|
机器学习/深度学习 人工智能 API
使用TensorRT-LLM进行高性能推理
LLM的火爆之后,英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。此SDK包含深度学习推理优化器和运行环境,可为深度学习推理应用提供低延迟和高吞吐量。而TensorRT-LLM是在TensorRT基础上针对大模型进一步优化的加速推理库,它号称可以增加4倍的推理速度。
530 0
|
机器学习/深度学习 存储 人工智能
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
346 0
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
|
6月前
|
机器学习/深度学习 人工智能 Cloud Native
大语言模型推理提速,TensorRT-LLM 高性能推理实践
大型语言模型(Large language models,LLM)是基于大量数据进行预训练的超大型深度学习模型,本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。
101660 2
|
1月前
|
机器学习/深度学习 算法 测试技术
3天把Llama训成Mamba,性能不降,推理更快!
【10月更文挑战第7天】论文《Distilling and Accelerating Hybrid Models》提出了一种将大型Transformer模型高效转化为线性RNN模型的新方法,通过重用注意力层中的线性投影权重,实现性能不降甚至提升。研究通过多阶段蒸馏方法训练模型,包括渐进蒸馏、监督微调和定向偏好优化,确保了模型在标准聊天基准测试中的优异表现。实验结果表明,蒸馏后的混合模型在多个任务上与原模型及同类模型相比,表现出色或更优。然而,该方法仍需大量计算资源,并在特定任务上可能存在性能差距。
40 1
|
3月前
|
机器学习/深度学习 并行计算 PyTorch
ONNX 优化技巧:加速模型推理
【8月更文第27天】ONNX (Open Neural Network Exchange) 是一个开放格式,用于表示机器学习模型,使模型能够在多种框架之间进行转换。ONNX Runtime (ORT) 是一个高效的推理引擎,旨在加速模型的部署。本文将介绍如何使用 ONNX Runtime 和相关工具来优化模型的推理速度和资源消耗。
1313 4
|
3月前
|
机器学习/深度学习 TensorFlow 数据处理
分布式训练在TensorFlow中的全面应用指南:掌握多机多卡配置与实践技巧,让大规模数据集训练变得轻而易举,大幅提升模型训练效率与性能
【8月更文挑战第31天】本文详细介绍了如何在Tensorflow中实现多机多卡的分布式训练,涵盖环境配置、模型定义、数据处理及训练执行等关键环节。通过具体示例代码,展示了使用`MultiWorkerMirroredStrategy`进行分布式训练的过程,帮助读者更好地应对大规模数据集与复杂模型带来的挑战,提升训练效率。
80 0
|
5月前
|
机器学习/深度学习 并行计算 算法框架/工具
为什么深度学习模型在GPU上运行更快?
为什么深度学习模型在GPU上运行更快?
76 2
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
2024年5月大语言模型论文推荐:模型优化、缩放到推理、基准测试和增强性能
本文汇总了2024年5月发布的七篇重要大语言模型论文,涉及模型优化、缩放、推理及性能增强。
373 2
|
11月前
|
自然语言处理 测试技术 异构计算
使用Accelerate库在多GPU上进行LLM推理
大型语言模型(llm)已经彻底改变了自然语言处理领域。随着这些模型在规模和复杂性上的增长,推理的计算需求也显著增加。为了应对这一挑战利用多个gpu变得至关重要。
1578 0