统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者-阿里云开发者社区

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

2024-09-22 67

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第22天】该研究由Meta、Waymo及南加大团队合作完成，提出了一种名为Transfusion的新多模态模型，巧妙融合了语言模型与扩散模型的优点，实现了单一模型下的文本与图像生成和理解。Transfusion通过结合下一个token预测与扩散模型，在混合模态序列上训练单个Transformer，能够无缝处理离散和连续数据。实验表明，该模型在图像生成、文本生成以及图像-文本生成任务上表现出色，超越了DALL-E 2和SDXL等模型。不过，Transfusion仍面临计算成本高和图像理解能力有限等挑战，并且尚未涵盖音频和视频等其他模态。

最近，一篇名为《Predict the Next Token and Diffuse Images with One Multi-Modal Model》的论文引起了广泛关注。这篇论文由Chunting Zhou等人撰写，来自Meta、Waymo和南加州大学的研究人员合作完成。他们提出了一种名为Transfusion的新型多模态模型，旨在通过结合语言模型和扩散模型的优势，实现在单一模型中进行文本和图像的生成和理解。

Transfusion模型的创新之处在于，它将语言模型中的下一个token预测目标与扩散模型相结合，从而在混合模态序列上训练单个transformer。这种结合使得Transfusion模型能够同时处理离散数据（如文本）和连续数据（如图像），而无需对图像进行量化或损失信息。

为了验证Transfusion模型的效果，研究人员在各种单模态和跨模态基准上进行了广泛的实验。结果显示，Transfusion模型在图像生成、文本生成和图像-文本生成等任务上都取得了显著的性能提升。例如，在图像生成任务上，Transfusion模型在FID和CLIP分数上都超过了其他模型，如DALL-E 2和SDXL。在文本生成任务上，Transfusion模型在Wikipedia和C4数据集上的困惑度与Llama模型相当。

然而，Transfusion模型也存在一些局限性。首先，由于模型的复杂性，训练和推理的计算成本相对较高。其次，尽管Transfusion模型在图像生成任务上取得了较好的结果，但在其他图像理解任务上的表现仍有待提高。此外，Transfusion模型目前主要关注文本和图像两种模态，对于其他模态（如音频、视频）的支持还不够完善。

论文地址：https://arxiv.org/pdf/2408.11039

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

热门文章

最新文章

相关课程

相关电子书

相关实验场景