清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(2)

简介: 清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下

实验结果


UniDiffuser 首先和 Versatile Diffusion 进行了比较。Versatile Diffusion 是过去的一个基于多任务框架的多模态扩散模型。首先 UniDiffuser 和 Versatile Diffusion 进行了文到图上的效果比较。如下面的图 5 所示,在不同的 classifier-free guidance scale 下,UniDiffuser 在 CLIP Score 和 FID 指标上均要好于 Versatile Diffusion。



然后 UniDiffuser 和 Versatile Diffusion 进行了图到文上的效果比较。如下面的图 6 所示,UniDiffuser 在图到文上有更好的 CLIP Score。


UniDiffuser 也和专用的文到图模型在 MS-COCO 上进行了 zero-shot FID 的比较。如下面的表 1 所示,UniDiffuser 可以和专用的文到图模型取得可比的效果。


相关文章
|
2月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
61 5
|
2月前
|
机器学习/深度学习 自然语言处理
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
【4月更文挑战第17天】香港中文大学(深圳)研究团队发表综述论文,探讨大型语言模型(LLMs)与强化学习(RL)结合的四条技术路线:信息处理器、奖励设计者、决策制定者和生成器。LLMs提升RL在多任务学习和样本效率,但处理复杂环境时仍有挑战。它们能设计奖励函数,但预训练知识限制在专业任务中的应用。作为决策者和生成器,LLMs提高样本效率和行为解释,但计算开销是问题。
144 1
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
|
11月前
|
机器学习/深度学习 数据采集 人工智能
给爆火的Llama 2划重点,Huggingface机器学习科学家写了篇分析文章
给爆火的Llama 2划重点,Huggingface机器学习科学家写了篇分析文章
190 1
|
11月前
|
机器学习/深度学习 算法
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
|
机器学习/深度学习 人工智能 自然语言处理
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
118 0
|
人工智能 算法 网络架构
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(1)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
160 0
|
机器学习/深度学习 数据采集 人工智能
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写(2)
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
200 0
|
机器学习/深度学习 人工智能 自然语言处理
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写(1)
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
312 0
|
机器学习/深度学习 算法 自动驾驶
NeurIPS 2022 Oral | 离线强化学习新范式!京东科技&清华提出解耦式学习算法
NeurIPS 2022 Oral | 离线强化学习新范式!京东科技&清华提出解耦式学习算法
138 0
|
机器学习/深度学习
斯坦福、微软联手,用扩散模型进行蛋白质结构生成,已开源
斯坦福、微软联手,用扩散模型进行蛋白质结构生成,已开源
100 0