最近,一篇名为《Distillation and Acceleration of Hybrid Models》的论文引起了广泛关注。这篇论文由来自日内瓦大学、Together AI、康奈尔大学和普林斯顿大学的研究人员合作完成,他们提出了一种将大型Transformer模型(如Llama3)蒸馏成混合线性RNN的方法。
论文的主要目标是解决Transformer模型在长序列生成任务中的效率问题。尽管Transformer模型在处理大规模语言模型方面取得了巨大成功,但由于其二次复杂度和对大量内存的需求,它们在处理非常长的序列时变得非常缓慢。为了解决这个问题,研究人员提出了一种混合模型,该模型结合了线性RNN和Transformer的优点。
具体而言,他们的方法包括两个主要步骤:首先,他们将预训练的Transformer模型的权重映射到线性RNN的权重上,以便进行蒸馏。其次,他们提出了一种多阶段蒸馏方法,该方法结合了渐进蒸馏、监督微调和定向偏好优化等技术。
通过这种方式,研究人员成功地将大型Transformer模型(如Llama3)蒸馏成了混合线性RNN模型。他们发现,这种混合模型在聊天基准测试中的表现与原始Transformer模型相当,甚至在某些情况下表现更好。此外,他们还提出了一种硬件感知的推测解码算法,可以加速Mamba和混合模型的推理速度。
然而,尽管这项研究取得了令人鼓舞的成果,但也有一些潜在的局限性。首先,研究人员主要关注的是聊天基准测试,而没有对其他任务进行广泛的评估。其次,他们的方法可能不适用于所有类型的Transformer模型,因为不同的模型可能需要不同的蒸馏策略。