SINE: 一种基于扩散模型的单图像编辑解决方案

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: SINE: 一种基于扩散模型的单图像编辑解决方案

Title:


Paper: https://arxiv.org/pdf/2212.04489.pdf


Github: https://github.com/zhang-zx/SINE.git


导读


本文着重讨论了如何使用扩散模型来进行图像编辑的问题。之前的工作已经证明了扩散模型在条件图像生成方面具有很强的能力,例如文本指导的图像合成。但是,在许多情况下,只有一个图像可用,例如《珍珠耳环女孩》画作。使用现有的工作来微调预先训练的扩散模型,只使用一张图片会导致严重的过拟合问题。


为了解决这个问题,我们提出了一种新的基于模型的指导方法,用于解决单图像编辑的问题。通过基于无分类器指导的模型指导,可以将单张图像训练模型中的知识蒸馏到预训练的扩散模型中,使得即使在只有一张给定图像的情况下也可以创建内容。此外,文章还提出了一种基于补丁(patch)的微调方法,可以有效地帮助模型生成任意分辨率的图像。


最后,本文进行了大量实验来验证其方法的设计选择,并展示出极具前景的编辑能力,包括改变风格、内容添加和对象操作。

cc4c23fc63109230c51faaffc228992d.png


总览


40823812f5f95763f86fc45249a677c9.png


对于一张随机的现实中的图像,作者的目标是通过语言来编辑图像,同时保留尽可能多的原始图像细节。为了实现这一目标,我们利用了预先训练的大规模文本到图像模型的泛化能力。一种直观的方法是用单张图像和文本描述来微调扩散模型,类似于DreamBooth。


理想情况下,它应该提供一个可以用给定的文本描述重构输入图像,并根据其他语言指导合成新图像的模型。然而,作者发现模型很容易过度拟合单个训练图像及其相应的文本描述。因此,尽管微调过的模型仍然可以完美地重构输入图像,但它不再能够根据给定的语言指导合成多样化的图像(如图5所示)。此外,由于缺乏位置信息,它难以生成任意分辨率的图像(如图4所示)。


因此,为了解决上述问题,本文提出了一种基于测试时间的模型无分类器指导和基于补丁的微调技术。整体方法的概览如图2所示。


实验

通过将本文方法应用于各种图像,并用两个目标提示词(prompt)在512×512分辨率下编辑它们。我们展示了我们的方法可以用于的广泛编辑,包括但不限于风格转移内容添加姿势改变品种改变等。


1d4c428669c73b08447935caf836b759.png

本文方法同样可以实现更高分辨率的图像编辑,而不会产生重复像素等伪像,即使在极大地改变高宽比的图像上也是如此。

image.png

下图展示了与DreamBooth和Textual-Inversion的对比。

f04ebcdbeee30ef116a41b7d8a5c40ff.png

通过在512×512分辨率下训练的模型可以对对人脸照片进行了各种局部或全局的编辑。

image.png


应用

下图展示了该方法应用到图像编辑的各种任务:内容删除(a)、风格生成(b)和风格转移©。


4ee5913f087013960856a66becef1971.png

The generation resolution is set to H = 768 and W = 1024. We use K = 400 and v = 0.7 in this sample.


image.png

The output resolution is set to H = 768 and W = 1024. We use K = 400 and v = 0.65 in this example

image.png

The output resolution is set to H = 768 and W = 1024. We use K = 400 and v = 0.7 in this example.

image.png


The output resolution is set to H = 768 and W = 1024. We use K = 500 and v = 0.8 in this example.

image.png

The output resolution is set to H = 768 and W = 1024. We use K = 500 and v = 0.8 in this example.


image.png

The output resolution is set to H = 1024 and W = 768. We use K = 400 and v = 0.6 in this example.

image.jpeg


总结

本文介绍了SINE,一种基于单图像编辑的方法。只用一张图像和对图像中对象的简要描述,该方法就可以实现各种分辨率的广泛编辑,并根据语言指导中描述的信息。为了获得该结果,作者利用了预训练的大规模文本到图像扩散模型

训练步骤:

  • 使用基于补丁微调方法对预先训练的模型进行微调,直到它过拟合单个图像。
  • 在采样时间,使用过拟合的模型来指导预先训练的扩散模型进行图像合成,这既保证了结果的保真度,又利用了预先训练模型的泛化能力

与其他方法相比,本文方法对图像具有更好的几何理解,因此除了风格转移外,还可以对图像进行复杂的编辑。

然而,在一些情况下,如果给扩散模型提供了令人困惑的编辑指导,例如changing a dog to a tiger in the same posture,此时可能会失败。在需要应用大幅变化的情况下,例如改变同一姿势的狗为老虎,也会出现明显的伪像。

image.gif


目录
相关文章
|
8月前
|
机器学习/深度学习 人工智能
手动实现一个扩散模型DDPM(下)
手动实现一个扩散模型DDPM(下)
429 2
|
8月前
|
机器学习/深度学习 人工智能 计算机视觉
多模态模型可能是大模型的终局
多模态模型可能是大模型的终局
|
20天前
|
机器学习/深度学习 人工智能 调度
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
中国科学技术大学研究团队提出了一种新的评估指标——模态融合率(MIR),用于评估多模态预训练模型的对齐质量。MIR通过衡量不同模态之间的分布距离,有效反映了模型的对齐质量,并在多种训练配置下表现出良好的鲁棒性和通用性。实验结果表明,MIR能够准确评估训练数据选择、训练策略调度和模型架构设计对预训练结果的影响,为多模态学习提供了可靠的方法。
52 22
|
3月前
|
编解码 人工智能 数据可视化
imagen: 具有深度语言理解的逼真的文本到图像扩散模型
imagen: 具有深度语言理解的逼真的文本到图像扩散模型
45 0
|
4月前
|
机器学习/深度学习 自然语言处理 并行计算
扩散模型
本文详细介绍了扩散模型(Diffusion Models, DM),一种在计算机视觉和自然语言处理等领域取得显著进展的生成模型。文章分为四部分:基本原理、处理过程、应用和代码实战。首先,阐述了扩散模型的两个核心过程:前向扩散(加噪)和逆向扩散(去噪)。接着,介绍了训练和生成的具体步骤。最后,展示了模型在图像生成、视频生成和自然语言处理等领域的广泛应用,并提供了一个基于Python和PyTorch的代码示例,帮助读者快速入门。
|
5月前
|
编解码 索引
Sora视频重建与创新路线问题之Muse模型想生成高分辨率图像,要如何操作
Sora视频重建与创新路线问题之Muse模型想生成高分辨率图像,要如何操作
|
8月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
303 3
|
7月前
|
机器学习/深度学习 算法 PyTorch
【机器学习】稳定扩散在图像生成中的应用
【机器学习】稳定扩散在图像生成中的应用
51 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】自然语言引导下的单目深度估计:泛化能力与鲁棒性的新挑战
【机器学习】自然语言引导下的单目深度估计:泛化能力与鲁棒性的新挑战
88 0
|
8月前
|
人工智能 调度 vr&ar
探索生成模型的新篇章:扩散模型的理论与实践
【4月更文挑战第11天】扩散模型作为新兴的生成工具,基于变分自编码器(VAE)和去噪扩散概率模型(DDPM),通过逐步添加噪声生成样本,广泛应用于图像和视频生成,展示出在逆问题解决上的潜力。尽管训练复杂且计算需求高,研究者正通过新理论框架和SDE方法优化模型,以应对挑战并提升性能。
86 1
探索生成模型的新篇章:扩散模型的理论与实践

热门文章

最新文章