SINE: 一种基于扩散模型的单图像编辑解决方案-阿里云开发者社区

SINE: 一种基于扩散模型的单图像编辑解决方案

2023-05-12 189

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： SINE: 一种基于扩散模型的单图像编辑解决方案

Title:

Paper: https://arxiv.org/pdf/2212.04489.pdf

Github: https://github.com/zhang-zx/SINE.git

导读

本文着重讨论了如何使用扩散模型来进行图像编辑的问题。之前的工作已经证明了扩散模型在条件图像生成方面具有很强的能力，例如文本指导的图像合成。但是，在许多情况下，只有一个图像可用，例如《珍珠耳环女孩》画作。使用现有的工作来微调预先训练的扩散模型，只使用一张图片会导致严重的过拟合问题。

为了解决这个问题，我们提出了一种新的基于模型的指导方法，用于解决单图像编辑的问题。通过基于无分类器指导的模型指导，可以将单张图像训练模型中的知识蒸馏到预训练的扩散模型中，使得即使在只有一张给定图像的情况下也可以创建内容。此外，文章还提出了一种基于补丁(patch)的微调方法，可以有效地帮助模型生成任意分辨率的图像。

最后，本文进行了大量实验来验证其方法的设计选择，并展示出极具前景的编辑能力，包括改变风格、内容添加和对象操作。

总览

对于一张随机的现实中的图像，作者的目标是通过语言来编辑图像，同时保留尽可能多的原始图像细节。为了实现这一目标，我们利用了预先训练的大规模文本到图像模型的泛化能力。一种直观的方法是用单张图像和文本描述来微调扩散模型，类似于DreamBooth。

理想情况下，它应该提供一个可以用给定的文本描述重构输入图像，并根据其他语言指导合成新图像的模型。然而，作者发现模型很容易过度拟合单个训练图像及其相应的文本描述。因此，尽管微调过的模型仍然可以完美地重构输入图像，但它不再能够根据给定的语言指导合成多样化的图像（如图5所示）。此外，由于缺乏位置信息，它难以生成任意分辨率的图像（如图4所示）。

因此，为了解决上述问题，本文提出了一种基于测试时间的模型无分类器指导和基于补丁的微调技术。整体方法的概览如图2所示。