imagen: 具有深度语言理解的逼真的文本到图像扩散模型

简介: imagen: 具有深度语言理解的逼真的文本到图像扩散模型

1. 项目主页

Imagen: Text-to-Image Diffusion Models

我们推出了 Imagen,这是一种文本到图像的扩散模型,具有前所未有的照片级真实感和深层次的语言理解能力。Imagen 建立在大型 Transformer 语言模型在文本理解方面的强大功能之上,并依赖于扩散模型在高保真图像生成方面的强大功能。我们的主要发现是,在纯文本语料库上进行预训练的通用大型语言模型(例如 T5)在对文本进行图像合成编码方面出奇地有效:增加 Imagen 中语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。Imagen 在 COCO 数据集上获得了 7.27 的全新最佳 FID 分数,而无需在 COCO 上进行训练,并且人类评分者发现 Imagen 样本在图像文本对齐方面与 COCO 数据本身相当。为了更深入地评估文本到图像模型,我们引入了 DrawBench,这是一个全面且具有挑战性的文本到图像模型基准。使用 DrawBench,我们将 Imagen 与最近的方法(包括 VQ-GAN+CLIP、潜在扩散模型和 DALL-E 2)进行比较,并发现在并排比较中,人类评估者更喜欢 Imagen 而不是其他模型,无论是在样本质量还是图像文本对齐方面。

论文: https://arxiv.org/abs/2205.11487

模型效果示意图:

2.  技术细节

Imagen 是一个可以根据输入文本创建逼真图像的人工智能系统

Imagen 的可视化。Imagen 使用大型冻结 T5-XXL 编码器将输入文本编码为嵌入。条件扩散模型将文本嵌入映射到 64×64 图像中。Imagen 进一步利用文本条件超分辨率扩散模型对图像进行上采样 64×64→256×256 和 256×256→1024×1024。

核心点:

  • 大型预训练语言模型 × 级联扩散模型
  • 深度文本理解 → 逼真生成

Imagen 研究亮点

  • 我们表明,大型预训练冻结文本编码器对于文本转图像任务非常有效。
  • 我们表明,缩放预训练文本编码器大小比缩放扩散模型大小更重要。
  • 我们引入了一种新的阈值扩散采样器,它可以使用非常大的无分类器指导权重。
  • 我们引入了一种新的高效 U-Net 架构,它计算效率更高、内存效率更高、收敛速度更快。
  • 在 COCO 上,我们实现了 7.27 的全新先进 COCO FID;人类评分者发现 Imagen 样本在图像-文本对齐方面与参考图像相当。

DrawBench:全新综合挑战性基准

  • 并行人工评估。
  • 系统地测试:组合性、基数性、空间关系、长篇文本、生僻词和挑战性提示。
  • 在图像文本对齐和图像保真度方面,人工评分者强烈倾向于 Imagen 而非其他方法。

State-of-the-art text-to-image:

目录
相关文章
|
人工智能 文字识别 安全
关于“文档图像前沿技术探索 —多模态及图像安全”专题报告分享
>10月14日第六届[中国模式识别与计算机视觉大会](https://www.prcv2023.cn/2023prcv)在厦门举办。PRCV 2023由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,厦门大学承办,是国内顶级的模式识别和计算机视觉领域学术盛会,CCF推荐会议(C类)。 本届会议主题为“相约鹭岛,启智未来”。会议旨在汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行,共同分享我国模式识别与计算机视觉领域的最新理论和技术成果。 PRCV2023共设5个大
181 0
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
结合DeepSeek-R1强化学习方法的视觉模型!VLM-R1:输入描述就能精确定位图像目标
VLM-R1 是基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像目标,支持复杂场景推理与高效训练。
163 0
|
4月前
|
人工智能
LongAlign:港大推出的提升文本到图像扩散模型处理长文本对齐方法
LongAlign是由香港大学研究团队推出的文本到图像扩散模型的改进方法,旨在提升长文本输入的对齐精度。通过段级编码技术和分解偏好优化,LongAlign显著提高了模型在长文本对齐任务上的性能,超越了现有的先进模型。
61 1
LongAlign:港大推出的提升文本到图像扩散模型处理长文本对齐方法
|
6月前
MUMU:用文本、图像引导,多模态图像生成模型
【9月更文挑战第19天】随着人工智能技术的发展,多模态模型因其能处理文本、图像、音频等多种信息而备受关注。在图像生成领域,一种名为MUMU的新模型展现出巨大潜力。MUMU可接收文本和图像提示并生成相应图像,如根据“一个<图片:男人>男人和他的<图片:狗>狗在一个<图片:卡通>动画风格中”生成图像。通过训练包含文本-图像数据集的视觉-语言编码器及扩散解码器,MUMU能实现风格转换和角色一致性等任务,并在图像编辑和合成方面展示出潜力。然而,其仍受限于复杂场景处理能力和计算资源需求。论文详情见链接:https://arxiv.org/abs/2406.18790。
83 1
|
6月前
|
机器学习/深度学习 自然语言处理 计算机视觉
用于图像和用于自然语言的神经网络区别
主要区别总结 数据结构:图像数据是二维像素矩阵,具有空间结构;文本数据是一维序列,具有时间结构。 网络架构:图像处理常用CNN,注重局部特征提取;自然语言处理常用RNN/LSTM/Transformer,注重序列和全局依赖。 操作单元:图像处理中的卷积核在空间上操作;自然语言处理中的注意力机制在序列上操作。
48 2
|
8月前
|
机器学习/深度学习 编解码 算法框架/工具
使用Python实现深度学习模型:图像超分辨率与去噪
【7月更文挑战第17天】 使用Python实现深度学习模型:图像超分辨率与去噪
201 4
|
8月前
|
机器学习/深度学习 数据可视化 TensorFlow
使用Python实现深度学习模型:图像语义分割与对象检测
【7月更文挑战第15天】 使用Python实现深度学习模型:图像语义分割与对象检测
142 2
|
9月前
|
人工智能 vr&ar 计算机视觉
CVPR 2024:让图像扩散模型生成高质量360度场景,只需要一个语言模型
【6月更文挑战第20天】CVPR 2024研究表明,结合语言模型的图像扩散模型能高效生成360度全景图像,减少对标注数据的依赖。该框架利用语言模型的语义信息引导细节丰富的图像生成,解决了传统方法的标注难题。然而,方法的准确性和计算资源需求是挑战。这一进展推动了VR/AR图像生成技术的发展。[论文链接](https://arxiv.org/pdf/2406.01843)**
104 6
|
10月前
|
机器学习/深度学习 人工智能 达摩院
DDColor:AI图像着色工具,优秀的黑白图像上色模型,支持双解码器!
DDColor:AI图像着色工具,优秀的黑白图像上色模型,支持双解码器!
485 3
|
10月前
|
人工智能 数据可视化 vr&ar
TripoSR:一个图像到3D生成模型,你get到了嘛!
TripoSR:一个图像到3D生成模型,你get到了嘛!
197 1

热门文章

最新文章