最近,一篇名为《Distillation and Acceleration of Hybrid Models》的论文引起了广泛关注。该论文由来自日内瓦大学、Together AI、康奈尔大学和普林斯顿大学的研究人员合作完成。论文的主要贡献在于提出了一种将大型Transformer模型(如Llama)转化为线性RNN模型(如Mamba)的方法,并证明了这种转换在保持性能的同时,可以显著提高推理速度。
论文首先回顾了Transformer和线性RNN模型的背景。Transformer模型在深度学习领域取得了巨大成功,推动了大型语言模型(如GPT、Llama和Mistral)的发展。然而,由于Transformer模型在处理长序列时存在二次复杂度和巨大的键值(KV)缓存需求,因此其推理速度较慢。相比之下,线性RNN模型(如Mamba、Mamba2、GLA、RetNet和Griffin)在小到中等规模的受控实验中已经能够超越Transformer模型,并且具有更快的推理速度。
为了解决Transformer模型在推理速度上的瓶颈,研究人员提出了一种将大型Transformer模型转化为线性RNN模型的方法。他们发现,通过重用Transformer模型中的线性投影权重,可以实现这种转换。具体来说,他们提出了一种修改后的Mamba架构,可以直接从预训练的Transformer模型的注意力块进行初始化。然后,他们使用一种多阶段蒸馏方法,包括渐进蒸馏、监督微调和定向偏好优化,来进一步提高模型的性能。
为了验证这种方法的有效性,研究人员在不同的聊天基准测试中进行了实验,包括AlpacaEval和MT-Bench。结果显示,他们提出的混合模型(即部分注意力层被替换为线性RNN层)在性能上与原始Transformer模型相当,甚至在某些情况下表现更好。此外,他们还展示了如何使用一种硬件感知的推测解码算法来加速Mamba和混合模型的推理速度。
然而,尽管这项研究取得了令人鼓舞的成果,但也存在一些限制。首先,研究人员主要关注的是聊天基准测试,而没有在其他任务上进行广泛的评估。其次,他们使用的是预训练的Transformer模型作为教师模型,而没有从头开始训练线性RNN模型。最后,他们使用的是有限的计算资源,而没有使用更大规模的数据集或更强大的计算能力进行训练。