最近,一篇名为《Predict the Next Token and Diffuse Images with One Multi-Modal Model》的论文引起了广泛关注。这篇论文由Chunting Zhou等人撰写,来自Meta、Waymo和南加州大学的研究人员合作完成。他们提出了一种名为Transfusion的新型多模态模型,旨在通过结合语言模型和扩散模型的优势,实现在单一模型中进行文本和图像的生成和理解。
Transfusion模型的创新之处在于,它将语言模型中的下一个token预测目标与扩散模型相结合,从而在混合模态序列上训练单个transformer。这种结合使得Transfusion模型能够同时处理离散数据(如文本)和连续数据(如图像),而无需对图像进行量化或损失信息。
为了验证Transfusion模型的效果,研究人员在各种单模态和跨模态基准上进行了广泛的实验。结果显示,Transfusion模型在图像生成、文本生成和图像-文本生成等任务上都取得了显著的性能提升。例如,在图像生成任务上,Transfusion模型在FID和CLIP分数上都超过了其他模型,如DALL-E 2和SDXL。在文本生成任务上,Transfusion模型在Wikipedia和C4数据集上的困惑度与Llama模型相当。
然而,Transfusion模型也存在一些局限性。首先,由于模型的复杂性,训练和推理的计算成本相对较高。其次,尽管Transfusion模型在图像生成任务上取得了较好的结果,但在其他图像理解任务上的表现仍有待提高。此外,Transfusion模型目前主要关注文本和图像两种模态,对于其他模态(如音频、视频)的支持还不够完善。