【9月更文挑战第25天】《Distillation and Acceleration of Hybrid Models》一文由日内瓦大学、Together AI、康奈尔大学和普林斯顿大学的研究者联合发表,提出将大型Transformer模型(如Llama3)蒸馏成混合线性RNN的新方法,旨在提升长序列生成任务的效率。该方法通过权重映射和多阶段蒸馏,结合渐进蒸馏、监督微调及定向偏好优化技术,有效解决了Transformer模型的二次复杂度和高内存需求问题。实验表明,混合模型在聊天基准测试中表现出色,甚至优于原模型,并通过硬件感知解码算法进一步加速推理。然而,该方法在其他任务上的适用性仍有待验证。