InstructPix2Pix: 一种无需微调新的快速图像编辑方法

简介: InstructPix2Pix: 一种无需微调新的快速图像编辑方法

Title:


Paper: https://arxiv.org/abs/2211.09800


Github: comming soon _


导读

image.png


本文提出了一种新的图像编辑方法,它可以通过语言指导快速编辑图像。为了获得这个问题的训练数据,作者结合了两个大型预训练模型的知识——语言模型和文本到图像模型——生成了大量的图像编辑示例数据集。通过在这些数据上进行训练,并在推理时能够适用于真实图像和用户编写的指令。它可以在几秒钟内快速编辑图像,并且不需要每个例子的微调或反演。作者展示了多种输入图像和指令所结合的图像,效果还是非常惊艳的。


方法

本文提出了一种教会生成模型遵循人类书面指令进行图像编辑的方法。由于此任务的训练数据难以大规模获取,作者提出了一种生成配对数据集的方法,该方法结合了预训练的多个大模型:大语言模型(GPT-3)和文本到图像模型(Stable Diffusion)。


这两个模型捕捉了语言和图像的互补知识,可以结合起来创建跨越多个模态的任务的配对训练数据。使用生成的配对数据,作者训练了一个条件扩散模型,该模型给定输入图像和关于如何编辑它的文本指令,生成编辑后的图像。该模型可以直接在前向传递中执行图像编辑,不需要任何其他示例图像、输入/输出图像的完整描述或每个例子的微调。尽管完全在合成示例(即生成的书面说明和生成的图像)上进行训练,但模型也实现了对任意真实图像和自然人类书面指令的零点推广。


本文提出的模型能够实现直观的图像编辑,可以遵循人类指令执行多种编辑,包括替换对象,改变图像的风格,改变环境,艺术媒介等,如上图所示。


效果

43be2d0dec3f51a8567ebcca0c1bb013.png

从上面这张图我们可以看到,独立的变化也会带来相应的上下文影响,例如添加的船也会在水中产生风涟漪,添加的城市天际线也会反射在湖面上。


0ef4db12e2706e55a46798b8a5aad110.png


1dd34ad6c0cc8b6e885c1df41c754668.png



a56c2ea4425b59d85c0944f1546d2992.png



0226d2dec9325f064e2fb9ac2e20040d.png


382b46eba9b7e8eece47330be2e99088.png



fd58c559e761afc2d55be328ad4f4647.png



e74e5a0d08af6ccc8a8057a6dbd4aeb5.png


4f41f46e4d93255694d18d2952684b86.png



局限性


5682ec2a029f48a00ab61975ba4b2e38.png

上图反映了该方法基于的数据和模型的偏差,例如职业与性别之间的相关性。


39e6a1756a6d0b21ac675c36105e5a8c.png


大家从左到右可以发现,该模型无法执行视点更改,可能会对图像进行不必要的过度更改,有时无法隔离指定的对象,并且很难重新组织或交换对象。


结论

本文演示了一种结合两个大型预训练模型(一个大型语言模型和一个文本到图像模型)生成用于训练扩散模型的数据集,以便跟随书面图像编辑指令的方法。虽然该方法能够产生各种各样的令人信服的图像编辑,包括风格、媒介和其他上下文变化,但仍然存在许多限制。


首先,该方法受生成数据的视觉质量的限制,因此会受到生成图像的扩散模型的限制。


其次,该方法在推广新的编辑并在视觉变化和文本指令之间建立正确联系方面的能力受到用于调整GPT-3的人类书面指令的限制,受到GPT-3创建指令和修改标题的能力以及Prompt-to-Prompt修改生成图像的能力的限制。特别是,该模型在计数物品数量和空间推理(例如,将其移到图像的左侧,交换它们的位置或将两个杯子放在桌子上,一个放在椅子上)方面存在困难,就像稳定扩散和提示到提示一样。


最后,本文方法所基于的数据和预训练模型中有着众所周知的偏差,因此该方法生成的编辑图像可能继承这些偏差或引入其他偏差(参考上面那张图)。


不过,除了缓解上述限制外,这篇工作还开启了许多有趣的问题,例如:如何遵循空间推理的指令,如何将指令与其他调节模态(如用户交互)结合起来,以及如何评估基于指令的图像编辑。将人类反馈纳入模型的改进是未来工作的另一个重要领域,策略(如人在循环中的强化学习)可以应用于改善模型与人类意图的一致性。


933404fd91054ede85d123cacba7becd.gif


目录
相关文章
|
1月前
|
编解码 人工智能 测试技术
无需训练,这个新方法实现了生成图像尺寸、分辨率自由
【4月更文挑战第25天】研究人员提出FouriScale方法,解决了扩散模型在生成高分辨率图像时的结构失真问题。通过膨胀卷积和低通滤波,该方法实现不同分辨率下图像的结构和尺度一致性,无需重新训练模型。实验显示FouriScale在保持图像真实性和完整性的同时,能生成任意尺寸的高质量图像,尤其在处理高宽比图像时表现出色。尽管在极高分辨率生成上仍有局限,但为超高清图像合成技术提供了新思路。[链接: https://arxiv.org/abs/2403.12963]
38 5
|
9天前
|
机器学习/深度学习 存储 计算机视觉
基于YOLOv8深度学习的PCB板缺陷检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测
基于YOLOv8深度学习的PCB板缺陷检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
|
机器学习/深度学习 编解码 Go
YOLOv5-Face | 原理超精细讲解、训练步骤还原、C++边缘部署(就要这么学!!!)(一)
YOLOv5-Face | 原理超精细讲解、训练步骤还原、C++边缘部署(就要这么学!!!)(一)
402 0
|
10月前
|
机器学习/深度学习 编解码 数据可视化
ConvNeXt V2:与屏蔽自动编码器共同设计和缩放ConvNets,论文+代码+实战
ConvNeXt V2:与屏蔽自动编码器共同设计和缩放ConvNets,论文+代码+实战
|
12月前
|
人工智能 自然语言处理 数据可视化
多模态可控图片生成统一模型来了,模型参数、推理代码全部开源
多模态可控图片生成统一模型来了,模型参数、推理代码全部开源
424 0
YOLOv5-Face | 原理超精细讲解、训练步骤还原、C++边缘部署(就要这么学!!!)(二)
YOLOv5-Face | 原理超精细讲解、训练步骤还原、C++边缘部署(就要这么学!!!)(二)
465 0
|
自然语言处理 算法 测试技术
参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一
参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一
104 0
|
机器学习/深度学习 编解码 算法
无需训练,自动扩展的视觉Transformer来了(2)
无需训练,自动扩展的视觉Transformer来了
111 0
|
机器学习/深度学习 编解码 移动开发
无需训练,自动扩展的视觉Transformer来了(1)
无需训练,自动扩展的视觉Transformer来了