3天把Llama训成Mamba,性能不降,推理更快!

简介: 【10月更文挑战第7天】论文《Distilling and Accelerating Hybrid Models》提出了一种将大型Transformer模型高效转化为线性RNN模型的新方法,通过重用注意力层中的线性投影权重,实现性能不降甚至提升。研究通过多阶段蒸馏方法训练模型,包括渐进蒸馏、监督微调和定向偏好优化,确保了模型在标准聊天基准测试中的优异表现。实验结果表明,蒸馏后的混合模型在多个任务上与原模型及同类模型相比,表现出色或更优。然而,该方法仍需大量计算资源,并在特定任务上可能存在性能差距。

最近,一篇名为"Distilling and Accelerating Hybrid Models"的论文引起了广泛关注。该论文提出了一种创新的方法,可以将大型Transformer模型(如Llama)高效地转化为线性RNN模型(如Mamba),同时保持性能不降,甚至在某些方面有所提升。

论文的主要贡献在于,它展示了如何通过重用注意力层中的线性投影权重,将大型Transformer模型蒸馏为线性RNN模型。这种混合模型不仅在性能上与原始Transformer相当,而且在推理速度上更快。此外,论文还介绍了一种硬件感知的推测解码算法,可以进一步加速Mamba和混合模型的推理速度。

具体来说,论文提出了一种修改后的Mamba架构,可以直接从预训练模型的注意力块进行初始化。然后,通过多阶段蒸馏方法,包括渐进蒸馏、监督微调和定向偏好优化,对模型进行训练。这种多阶段蒸馏方法在困惑度和下游评估方面都显示出了更好的性能。

为了验证这种方法的有效性,论文在不同的大规模开源聊天语言模型上进行了实验,包括Zephyr-7B和Llama-3 8B。结果显示,蒸馏后的混合模型在标准聊天基准测试中的表现与教师模型相当。此外,论文还比较了其他类似大小的从头开始训练的Mamba模型,包括使用1.2T标记训练的Mamba 7B模型和使用3.5T标记训练的NVIDIA混合Mamba2模型。结果显示,蒸馏后的混合模型在多个任务上的表现与这些模型相当或更好。

然而,这种方法也存在一些限制。首先,它需要大量的计算资源来进行蒸馏和训练。其次,尽管混合模型在性能上与原始Transformer相当,但在一些特定任务上可能仍然存在差距。此外,论文中提到的推测解码算法虽然可以加速推理速度,但可能需要额外的优化和调整才能在实际应用中发挥最大效果。

论文地址:https://arxiv.org/pdf/2408.15237

目录
相关文章
|
8月前
|
机器学习/深度学习 安全
ModelScope问题之轮数没有训练完推理有影响如何解决
ModelScope训练是指在ModelScope平台上对机器学习模型进行训练的活动;本合集将介绍ModelScope训练流程、模型优化技巧和训练过程中的常见问题解决方法。
60 0
|
机器学习/深度学习 人工智能 API
使用TensorRT-LLM进行高性能推理
LLM的火爆之后,英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。此SDK包含深度学习推理优化器和运行环境,可为深度学习推理应用提供低延迟和高吞吐量。而TensorRT-LLM是在TensorRT基础上针对大模型进一步优化的加速推理库,它号称可以增加4倍的推理速度。
549 0
|
机器学习/深度学习 存储 人工智能
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
375 0
|
3月前
|
机器学习/深度学习 人工智能 缓存
3天把Llama训成Mamba,性能不降,推理更快!
《Distillation and Acceleration of Hybrid Models》一文由日内瓦大学、Together AI、康奈尔大学和普林斯顿大学的研究者们共同完成,提出了一种将大型Transformer模型(如Llama)转化为线性RNN模型(如Mamba)的新方法。此方法不仅保持了模型性能,还大幅提升了推理速度。研究团队通过多阶段蒸馏及优化,结合预训练权重,在不同聊天基准测试中验证了模型的有效性。详情见:https://arxiv.org/pdf/2408.15237
43 3
|
9天前
|
人工智能 自然语言处理 PyTorch
Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率
Bamba-9B 是由 IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的基于 Mamba2 架构的仅解码语言模型。该模型在开放数据集上训练,旨在提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。Bamba-9B 在推理时相较于标准变换器模型展现出 2.5 倍的吞吐量提升和 2 倍的延迟加速。
53 12
Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率
|
8月前
|
机器学习/深度学习 人工智能 Cloud Native
大语言模型推理提速,TensorRT-LLM 高性能推理实践
大型语言模型(Large language models,LLM)是基于大量数据进行预训练的超大型深度学习模型,本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。
101764 2
|
3月前
|
机器学习/深度学习 人工智能 并行计算
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeed Chat 是一款革命性的平台,专为简化和加速类ChatGPT模型的训练而设计。通过一键式脚本,用户可以轻松完成从预训练模型到生成自定义ChatGPT模型的全过程。该系统复刻了InstructGPT的RLHF训练方法,并集成了一系列优化技术,如DeepSpeed Hybrid Engine,大幅提升了训练效率和经济性。使用DeepSpeed Chat,即使是拥有数千亿参数的大模型,也能在短时间内完成训练,且成本显著降低。无论是单GPU还是多GPU集群环境,DeepSpeed Chat都能提供卓越的性能和易用性,让RLHF训练变得更加普及。
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
|
8月前
|
物联网 Shell Swift
NPU推理&微调大模型实战
本文为魔搭社区轻量级训练推理工具SWIFT微调实战教程系列
|
5月前
|
机器学习/深度学习 并行计算 PyTorch
ONNX 优化技巧:加速模型推理
【8月更文第27天】ONNX (Open Neural Network Exchange) 是一个开放格式,用于表示机器学习模型,使模型能够在多种框架之间进行转换。ONNX Runtime (ORT) 是一个高效的推理引擎,旨在加速模型的部署。本文将介绍如何使用 ONNX Runtime 和相关工具来优化模型的推理速度和资源消耗。
2158 4
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
2024年5月大语言模型论文推荐:模型优化、缩放到推理、基准测试和增强性能
本文汇总了2024年5月发布的七篇重要大语言模型论文,涉及模型优化、缩放、推理及性能增强。
530 2