imagen: 具有深度语言理解的逼真的文本到图像扩散模型

简介: imagen: 具有深度语言理解的逼真的文本到图像扩散模型

1. 项目主页

Imagen: Text-to-Image Diffusion Models

我们推出了 Imagen,这是一种文本到图像的扩散模型,具有前所未有的照片级真实感和深层次的语言理解能力。Imagen 建立在大型 Transformer 语言模型在文本理解方面的强大功能之上,并依赖于扩散模型在高保真图像生成方面的强大功能。我们的主要发现是,在纯文本语料库上进行预训练的通用大型语言模型(例如 T5)在对文本进行图像合成编码方面出奇地有效:增加 Imagen 中语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。Imagen 在 COCO 数据集上获得了 7.27 的全新最佳 FID 分数,而无需在 COCO 上进行训练,并且人类评分者发现 Imagen 样本在图像文本对齐方面与 COCO 数据本身相当。为了更深入地评估文本到图像模型,我们引入了 DrawBench,这是一个全面且具有挑战性的文本到图像模型基准。使用 DrawBench,我们将 Imagen 与最近的方法(包括 VQ-GAN+CLIP、潜在扩散模型和 DALL-E 2)进行比较,并发现在并排比较中,人类评估者更喜欢 Imagen 而不是其他模型,无论是在样本质量还是图像文本对齐方面。

论文: https://arxiv.org/abs/2205.11487

模型效果示意图:

2.  技术细节

Imagen 是一个可以根据输入文本创建逼真图像的人工智能系统

Imagen 的可视化。Imagen 使用大型冻结 T5-XXL 编码器将输入文本编码为嵌入。条件扩散模型将文本嵌入映射到 64×64 图像中。Imagen 进一步利用文本条件超分辨率扩散模型对图像进行上采样 64×64→256×256 和 256×256→1024×1024。

核心点:

  • 大型预训练语言模型 × 级联扩散模型
  • 深度文本理解 → 逼真生成

Imagen 研究亮点

  • 我们表明,大型预训练冻结文本编码器对于文本转图像任务非常有效。
  • 我们表明,缩放预训练文本编码器大小比缩放扩散模型大小更重要。
  • 我们引入了一种新的阈值扩散采样器,它可以使用非常大的无分类器指导权重。
  • 我们引入了一种新的高效 U-Net 架构,它计算效率更高、内存效率更高、收敛速度更快。
  • 在 COCO 上,我们实现了 7.27 的全新先进 COCO FID;人类评分者发现 Imagen 样本在图像-文本对齐方面与参考图像相当。

DrawBench:全新综合挑战性基准

  • 并行人工评估。
  • 系统地测试:组合性、基数性、空间关系、长篇文本、生僻词和挑战性提示。
  • 在图像文本对齐和图像保真度方面,人工评分者强烈倾向于 Imagen 而非其他方法。

State-of-the-art text-to-image:

目录
相关文章
|
4月前
|
人工智能
LongAlign:港大推出的提升文本到图像扩散模型处理长文本对齐方法
LongAlign是由香港大学研究团队推出的文本到图像扩散模型的改进方法,旨在提升长文本输入的对齐精度。通过段级编码技术和分解偏好优化,LongAlign显著提高了模型在长文本对齐任务上的性能,超越了现有的先进模型。
59 1
LongAlign:港大推出的提升文本到图像扩散模型处理长文本对齐方法
|
6月前
MUMU:用文本、图像引导,多模态图像生成模型
【9月更文挑战第19天】随着人工智能技术的发展,多模态模型因其能处理文本、图像、音频等多种信息而备受关注。在图像生成领域,一种名为MUMU的新模型展现出巨大潜力。MUMU可接收文本和图像提示并生成相应图像,如根据“一个<图片:男人>男人和他的<图片:狗>狗在一个<图片:卡通>动画风格中”生成图像。通过训练包含文本-图像数据集的视觉-语言编码器及扩散解码器,MUMU能实现风格转换和角色一致性等任务,并在图像编辑和合成方面展示出潜力。然而,其仍受限于复杂场景处理能力和计算资源需求。论文详情见链接:https://arxiv.org/abs/2406.18790。
82 1
|
8月前
|
机器学习/深度学习 编解码 算法框架/工具
使用Python实现深度学习模型:图像超分辨率与去噪
【7月更文挑战第17天】 使用Python实现深度学习模型:图像超分辨率与去噪
198 4
|
10月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
351 3
|
9月前
|
人工智能 vr&ar 计算机视觉
CVPR 2024:让图像扩散模型生成高质量360度场景,只需要一个语言模型
【6月更文挑战第20天】CVPR 2024研究表明,结合语言模型的图像扩散模型能高效生成360度全景图像,减少对标注数据的依赖。该框架利用语言模型的语义信息引导细节丰富的图像生成,解决了传统方法的标注难题。然而,方法的准确性和计算资源需求是挑战。这一进展推动了VR/AR图像生成技术的发展。[论文链接](https://arxiv.org/pdf/2406.01843)**
104 6
|
10月前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
220 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
人工智能 数据挖掘 PyTorch
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
|
机器学习/深度学习 人工智能 自然语言处理
多模态对比语言图像预训练CLIP:打破语言与视觉的界限
多模态对比语言图像预训练CLIP:打破语言与视觉的界限
多模态对比语言图像预训练CLIP:打破语言与视觉的界限
|
人工智能 人机交互
可组合扩散模型主打Any-to-Any生成:文本、图像、视频、音频全都行
可组合扩散模型主打Any-to-Any生成:文本、图像、视频、音频全都行
206 0
|
计算机视觉
CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑
CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑
356 0