3天把Llama训成Mamba，性能不降，推理更快！-阿里云开发者社区

3天把Llama训成Mamba，性能不降，推理更快！

2024-10-16 50

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【10月更文挑战第7天】论文《Distilling and Accelerating Hybrid Models》提出了一种将大型Transformer模型高效转化为线性RNN模型的新方法，通过重用注意力层中的线性投影权重，实现性能不降甚至提升。研究通过多阶段蒸馏方法训练模型，包括渐进蒸馏、监督微调和定向偏好优化，确保了模型在标准聊天基准测试中的优异表现。实验结果表明，蒸馏后的混合模型在多个任务上与原模型及同类模型相比，表现出色或更优。然而，该方法仍需大量计算资源，并在特定任务上可能存在性能差距。

最近，一篇名为"Distilling and Accelerating Hybrid Models"的论文引起了广泛关注。该论文提出了一种创新的方法，可以将大型Transformer模型（如Llama）高效地转化为线性RNN模型（如Mamba），同时保持性能不降，甚至在某些方面有所提升。

论文的主要贡献在于，它展示了如何通过重用注意力层中的线性投影权重，将大型Transformer模型蒸馏为线性RNN模型。这种混合模型不仅在性能上与原始Transformer相当，而且在推理速度上更快。此外，论文还介绍了一种硬件感知的推测解码算法，可以进一步加速Mamba和混合模型的推理速度。

具体来说，论文提出了一种修改后的Mamba架构，可以直接从预训练模型的注意力块进行初始化。然后，通过多阶段蒸馏方法，包括渐进蒸馏、监督微调和定向偏好优化，对模型进行训练。这种多阶段蒸馏方法在困惑度和下游评估方面都显示出了更好的性能。

为了验证这种方法的有效性，论文在不同的大规模开源聊天语言模型上进行了实验，包括Zephyr-7B和Llama-3 8B。结果显示，蒸馏后的混合模型在标准聊天基准测试中的表现与教师模型相当。此外，论文还比较了其他类似大小的从头开始训练的Mamba模型，包括使用1.2T标记训练的Mamba 7B模型和使用3.5T标记训练的NVIDIA混合Mamba2模型。结果显示，蒸馏后的混合模型在多个任务上的表现与这些模型相当或更好。

然而，这种方法也存在一些限制。首先，它需要大量的计算资源来进行蒸馏和训练。其次，尽管混合模型在性能上与原始Transformer相当，但在一些特定任务上可能仍然存在差距。此外，论文中提到的推测解码算法虽然可以加速推理速度，但可能需要额外的优化和调整才能在实际应用中发挥最大效果。

论文地址：https://arxiv.org/pdf/2408.15237

3天把Llama训成Mamba，性能不降，推理更快！

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

3天把Llama训成Mamba，性能不降，推理更快！

热门文章

最新文章

相关课程

相关电子书

相关实验场景