叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天(1)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天

OpenAI:DALL・E 2 就是最好的。谷歌:看下我们 Imagen 生成的柴犬?


多模态学习近来受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 的文本转图像模型 DALL・E、英伟达的 GauGAN。现在,来自谷歌的研究者也在这一方向做出了探索,提出了一种文本到图像的扩散模型 Imagen。


Imagen 结合了 Transformer 语言模型和高保真扩散模型的强大功能,在文本到图像的合成中提供前所未有的逼真度和语言理解能力。与仅使用图像 - 文本数据进行模型训练的先前工作相比,Imagen 的关键突破在于:谷歌的研究者发现在纯文本语料库上预训练的大型 LM 的文本嵌入对文本到图像的合成显著有效。Imagen 的文本到图像生成可谓天马行空,能生成多种奇幻却逼真的有趣图像。

比如正在户外享受骑行的柴犬:


泰迪熊的 400 米蝶泳首秀:


狗狗照镜子发现自己是只猫:


火龙果成精要打空手道了:


如果你觉得这些图片过于魔幻,那下面这张小鸟生气的图就非常真实了,隔着屏幕都能感觉到它的愤怒:


我们发现这些图片的分辨率都很高,像是人工精心 PS 过的。然而这些模型都出自 Imagen 这个 AI 模型之手。

Imagen 模型中包含一个 frozen T5-XXL 编码器,用于将输入文本映射到一系列嵌入和一个 64×64 的图像扩散模型中,并带有两个超分辨率扩散模型,用于生成 256×256 和 1024×1024 的图像。


其中,所有扩散模型都以文本嵌入序列为条件,并使用无分类器指导。借助新型采样技术,Imagen 允许使用较大的指导权重,而不会发生样本质量下降,使得生成的图像具有更高的保真度、图像与文本更加吻合。

虽然架构简单且易于训练,但 Imagen 产生了令人惊讶的强大结果。Imagen 在 COCO 上的零样本 FID-30K 分数为 7.27,性能显著优于之前的方法(GLIDE、DALL-E 2 等),并超越了当前的 SOTA 模型 Make-A-Scene(7.27 VS 7.55)。从人工评估看,Imagen 生成的样本在图像文本对齐方面与 COCO captions 的参考图像相当。





此外,研究者还提出了一种用于文本到图像评估的文本 prompt 结构化新套件 DrawBench。DrawBench 对文本到图像模型进行多维评估,文本 prompt 旨在探索模型的不同语义属性。这些 prompt 包括组合性、基数、空间关系、处理复杂文本 prompt 或带有稀有单词的 prompt 的能力,它们包括创造性 prompt,这些 prompt 将模型生成高度难以置信的场景的能力扩展到训练数据范围之外。

借助 DrawBench,研究者进行了广泛的人工评估,结果表明,Imagen 的性能明显优于其他方法。研究者进一步展示了相对于多模态嵌入(例如 CLIP), 使用大型预训练语言模型作为 Imagen 的文本编码器具有明显的优势。


论文地址:https://gweb-research-imagen.appspot.com/paper.pdf


相关文章
|
11月前
|
人工智能 安全 数据挖掘
GPTS-生成一个动漫图像GPT
GPTs是ChatGPT的定制版本,用户可以通过组合指令、知识和功能来定制用于特定任务或主题的GPT。它们可以根据需要简单或复杂,解决从语言学习到技术支持等各种事情。
240 0
|
4月前
|
人工智能 知识图谱
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
【7月更文挑战第7天】LeCun与谢赛宁团队推出 Cambrian-1,一款视觉多模态大语言模型,挑战GPT-4V。该模型以视觉为中心,利用20多种视觉编码器强化表示学习,实现SOTA性能,同时开源权重、代码及工具,促进领域发展。尽管面临资源需求与数据隐私的讨论,但其创新如空间视觉聚合器(SVA)降低了计算需求。[论文链接: https://arxiv.org/abs/2406.16860]
65 1
|
编解码 测试技术 网络架构
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天(2)
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
180 0
|
机器学习/深度学习 编解码 计算机视觉
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
200 0
|
机器学习/深度学习 编解码 机器人
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
180 0
|
编解码 人工智能 自然语言处理
ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿
ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿
165 0
|
机器学习/深度学习 缓存 搜索推荐
GAN、扩散模型应有尽有,CMU出品的生成模型专属搜索引擎Modelverse来了
GAN、扩散模型应有尽有,CMU出品的生成模型专属搜索引擎Modelverse来了
131 0
|
机器学习/深度学习 编解码 人工智能
超越DALL·E!| OpenAI 年度最新力作 GLIDE:新生代文本引导扩散模型
超越DALL·E!| OpenAI 年度最新力作 GLIDE:新生代文本引导扩散模型
374 0
|
机器学习/深度学习 编解码 自然语言处理
只需2040张图片,训练视觉Transformer:南大吴建鑫团队提出IDMM
只需2040张图片,训练视觉Transformer:南大吴建鑫团队提出IDMM
166 0
|
机器学习/深度学习 人工智能 自然语言处理
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
246 0

热门文章

最新文章