DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?

简介: DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?

今年多模态图像合成与编辑方向大火,前有 DALL-E、GauGAN2,后有统一的多模态预训练模型「女娲」。来自新加坡南洋理工大学的研究者对这一领域内的进展和趋势做了系统的调查梳理。


现实世界中的信息存在于各种模态之中,多模态信息之间的有效交互和融合对于计算机视觉和深度学习研究中多模态数据的创建和感知起着关键作用。凭借在多模态信息交互建模方面的强大能力,多模态图像合成和编辑已成为近年来的热门研究课题。

与提供显式线索的传统视觉指导不同,多模态指导为图像合成和编辑提供了直观、灵活的手段。另一方面,该领域在特征与固有模态差距的对齐、高分辨率图像合成、公平评估指标等方面也面临着挑战。

基于此,来自新加坡南洋理工大学的研究者做了一项调查,全面地将近来多模态图像合成和编辑的进展背景化,根据数据模态和模型架构制定分类法,并撰写了一篇综述论文。




该论文首先介绍图像合成和编辑中不同类型的指导模态,并使用详细的框架广泛地描述多模态图像合成和编辑方法,包括生成对抗网络(GAN)、GAN 反转、Transformer、NeRF、扩散模型等。然后该研究对多模态图像合成和编辑中广泛采用的基准数据集和相应评估指标做了全面描述,并分析比较了多种合成方法及其优缺点。最后,该研究对当前研究存在的挑战和未来可能的研究方向给出了见解。这项调查研究将为多模态图像合成和编辑的未来发展奠定良好的基础。

论文内容概览

图像合成和编辑旨在创建逼真图像或编辑具有自然纹理的真实图像,近年来大多基于生成对抗网络(GAN)[1]。为了实现更可控的生成,一个主流研究方向旨在根据一定的指导条件生成和编辑图像。通常,分割图和图像边缘等视觉线索已被广泛采用,以实现卓越的图像合成和编辑性能。除了这些视觉线索之外,文本、音频和场景图等跨模态指导提供了一种更直观、更灵活的视觉概念表达方式。然而,从不同模态的数据中有效检索和融合异构信息仍是图像生成和编辑的巨大挑战。

作为多模态图像合成领域的一项先驱工作,E. Mansimov 等人 (2015)[5] 的工作表明循环变分自动编码器可以生成以文本为条件的新型视觉场景。随着生成对抗网络 I. Goodfellow 等人 (2014)[1]、P. Isola 等人(2017)[2]、 T. Park 等人(2019)[3]、 M. Mirza 等人(2014)[6]、 M. Arjovsky 等人(2017)[7]、 C.-H. Lin 等人(2018)[8] 等多项研究的发展,多模态图像合成的工作得到了极大的推进。

S. Reed 等人 2016 年的论文《Generative adversarial text to image synthesis》[11]扩展了条件 GAN [6] ,以基于文本描述生成自然图像。  L. Chen 等人 2017 年的论文《Deep cross-modal audio-visual generation》[12] 用条件 GAN 实现音乐表演的跨模态视听生成。然而,这两项先驱研究仅能对图像分辨率相对较低(例如 64 × 64)的有限数据集(例如 CUB-200 Birds [13] 和 Sub-URMP [12])进行合成。在过去几年中,改进的多模态编码 [14][15]、新型架构[16][17] 和循环结构[18] 使得该领域取得了显著的进步。另一方面,早期的研究主要集中在多模态图像合成上,很少关注多模态图像编辑任务。

随着大规模 GAN 的发展,领域内又涌现出一系列新型生成网络,如 BigGAN [19] 和 StyleGAN [20]-[22],以从随机噪声输入中合成高质量且具有多样性的图像。

最近有研究表明,GAN 可以在中间特征 [23] 和潜在空间 [24] 中有效地编码丰富的语义信息。GAN 反转 [25] 的方法将给定图像反转回预训练 GAN 模型的潜在空间,产生可由生成器重建给定图像的反转代码,这种方法取代了通过改变潜在代码来合成图像。由于 GAN 反转能够控制在潜在空间中发现的属性方向,因此预训练 GAN 可应用于真实图像编辑,而无需临时监督或昂贵的优化。

许多研究 [26][27] 都试图沿着一个特定方向改变真实图像的反转码来编辑图像的相应属性。在多模态指导方面,StyleClip [28] 利用 CLIP [29] 模型的强大功能为 StyleGAN 图像处理开发了基于文本的接口,而无需繁琐的手动操作。Talk-to-Edit [30] 则提出一种交互式人脸编辑框架,通过操作者与机器之间的对话就能进行细粒度的操作和编辑。

随着允许跨模态输入的 Transformer 模型 [31] 的流行,语言模型 [32]、图像生成预训练 [33] 和音频生成 [34] 等多个领域都取得了显著的进步。Transformer 为多模态图像合成提供了一条可能的新途径。

具体而言,DALL-E [35] 表明,在众多图像 - 文本对上训练大规模自回归 transformer 可以通过文本 prompt 产生具有可控结果的高保真生成模型。Taming Transformer [36] 提出用带有鉴别器和感知损失 [37]-[39] 的 VQGAN 来学习离散图像表征,并证明了在高分辨率图像合成中将 CNN 的归纳偏置与 transformer 的表达能力相结合的有效性。

ImageBART [40] 通过学习反转多项式扩散过程来解决自回归 (AR) 图像合成问题,该方法通过引入语境信息来减轻 AR 模型的曝光误差(exposure bias)。前段时间的 NUWA [41] 提出了一种统一的多模态预训练模型,允许使用 3D transformer 编码器 - 解码器框架和 3DNA 机制生成或操作视觉数据(即图像和视频)。

随着生成模型和神经渲染的发展,还有一些研究探索了其他类型的模型,例如神经辐射场 (NeRF) [42] 和扩散模型 [43][44],以实现多模态图像合成和编辑。

论文的主要部分包括第 2 章 - 第 5 章的内容:

  • 第 2 章介绍了图像合成和编辑中流行的指导模态的基础;
  • 第 3 章全面概述了具有详细 pipeline 的多模态图像合成和编辑方法;
  • 第 4 章介绍了流行的数据集、评估指标和一些典型方法的定量实验结果;
  • 第 5 章讨论了多模态图像合成和编辑面临的主要挑战和未来方向。


感兴趣的读者可以阅读论文原文了解更多研究内容。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
513 2
|
9月前
|
人工智能 API 计算机视觉
吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
【6月更文挑战第27天】吴恩达团队提出多模态模型新方法—多样本上下文学习,允许模型无需微调即可快速适应新任务。通过扩大上下文窗口至2000个示例,模型性能在图像分类等任务上显著提升,同时研究了批处理优化以减少计算成本。尽管面临计算开销和数据需求的挑战,但该方法为AI的高效泛化开辟了新途径。[论文链接:https://arxiv.org/abs/2405.09798]
167 5
|
4月前
|
机器学习/深度学习 人工智能 算法
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
斯坦福大学Percy Liang团队推出VideoAgent,一种能生成高质量视频并自我优化的模型。它结合强化学习和监督学习,根据用户反馈和环境变化自动调整,提升视频生成质量和用户体验,但同时也面临模型不稳定性和高资源需求等挑战。
64 6
|
7月前
|
机器学习/深度学习 人工智能 机器人
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
【8月更文挑战第10天】微软的VALL-E 2模型标志零样本语音合成新高度,通过重复感知采样与分组编码建模,显著提升语音合成的稳定性与效率。在LibriSpeech等数据集上,VALL-E 2的语音自然度与说话者相似度超越前代和其他系统,达到人类水平。然而,其卓越性能也引发了潜在滥用风险的关注。尽管如此,VALL-E 2在辅助沟通、教育、娱乐等领域的应用前景广阔。[论文](https://arxiv.org/pdf/2406.05370)
183 64
|
6月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
120 2
|
7月前
|
自然语言处理 语音技术
|
7月前
|
人工智能 JSON 自然语言处理
🔍深度揭秘!如何用提示词驾驭生成式大模型,让你的创意无限飞🌈
【8月更文挑战第1天】在AI风潮中,生成式大模型因出色的内容创造能力备受创意工作者青睐。但如何巧妙运用提示词,激发模型潜力,仍是挑战。本文通过问答形式揭秘提示词技巧:理解其定义、掌握设计方法(明确目标、具象描述、考虑模型特性)、评估其影响力及调整策略(细化描述、变换风格、调节参数),并分享实用贴士,助您成为驾驭AI创作的高手。
321 7
|
7月前
|
机器学习/深度学习 人工智能 机器人
🔮预言家的笔触:揭秘生成式大模型中,提示词如何编织未来故事线📜
【8月更文挑战第1天】在AI的星辰大海中,生成式大模型犹如预言家,以提示词为火花,跨越现实边界,编织逻辑与惊奇交织的叙事。提示词不仅是指令,更能激发无限创意,引导模型构建角色与情节,编织引人入胜的故事。技术上依托深度学习与语言模型,通过对海量文本的学习,实现对提示词的精准响应与创造性组合。示例代码模拟了模型从分析提示词到生成故事的过程。通过巧妙运用提示词,大模型可编织出无限可能的未来场景,拓宽想象边界,提供独特视角探索未知世界。
86 6
|
7月前
|
机器学习/深度学习 人工智能 搜索推荐
【颠覆传统】解锁记忆新姿势:多模态AI单词助记神器——让单词学习变得生动有趣,打造个性化学习新体验!
【8月更文挑战第21天】多模态AI单词助记模型融合文本、语音与图像,增强英语单词记忆效果。设计上利用多感官刺激提升信息处理与记忆效率。技术栈包括React.js前端、Node.js后端、PyTorch深度学习框架等。实现过程涵盖数据准备、前端开发、后端服务搭建、深度学习模型构建及用户反馈循环。应用显示该模型显著提高学习兴趣与记忆效率,尤其对视觉和听觉学习者有益,个性化推荐系统进一步优化学习体验。
235 0
|
10月前
|
Serverless 容器
1 张图概括你的 2023 年丨AIGC 创意画作
1 张图概括你的 2023 年丨AIGC 创意画作