InstructPix2Pix: 一种无需微调新的快速图像编辑方法

简介: InstructPix2Pix: 一种无需微调新的快速图像编辑方法

Title:


Paper: https://arxiv.org/abs/2211.09800


Github: comming soon _


导读

image.png


本文提出了一种新的图像编辑方法,它可以通过语言指导快速编辑图像。为了获得这个问题的训练数据,作者结合了两个大型预训练模型的知识——语言模型和文本到图像模型——生成了大量的图像编辑示例数据集。通过在这些数据上进行训练,并在推理时能够适用于真实图像和用户编写的指令。它可以在几秒钟内快速编辑图像,并且不需要每个例子的微调或反演。作者展示了多种输入图像和指令所结合的图像,效果还是非常惊艳的。


方法

本文提出了一种教会生成模型遵循人类书面指令进行图像编辑的方法。由于此任务的训练数据难以大规模获取,作者提出了一种生成配对数据集的方法,该方法结合了预训练的多个大模型:大语言模型(GPT-3)和文本到图像模型(Stable Diffusion)。


这两个模型捕捉了语言和图像的互补知识,可以结合起来创建跨越多个模态的任务的配对训练数据。使用生成的配对数据,作者训练了一个条件扩散模型,该模型给定输入图像和关于如何编辑它的文本指令,生成编辑后的图像。该模型可以直接在前向传递中执行图像编辑,不需要任何其他示例图像、输入/输出图像的完整描述或每个例子的微调。尽管完全在合成示例(即生成的书面说明和生成的图像)上进行训练,但模型也实现了对任意真实图像和自然人类书面指令的零点推广。


本文提出的模型能够实现直观的图像编辑,可以遵循人类指令执行多种编辑,包括替换对象,改变图像的风格,改变环境,艺术媒介等,如上图所示。


效果

43be2d0dec3f51a8567ebcca0c1bb013.png

从上面这张图我们可以看到,独立的变化也会带来相应的上下文影响,例如添加的船也会在水中产生风涟漪,添加的城市天际线也会反射在湖面上。


0ef4db12e2706e55a46798b8a5aad110.png


1dd34ad6c0cc8b6e885c1df41c754668.png



a56c2ea4425b59d85c0944f1546d2992.png



0226d2dec9325f064e2fb9ac2e20040d.png


382b46eba9b7e8eece47330be2e99088.png



fd58c559e761afc2d55be328ad4f4647.png



e74e5a0d08af6ccc8a8057a6dbd4aeb5.png


4f41f46e4d93255694d18d2952684b86.png



局限性


5682ec2a029f48a00ab61975ba4b2e38.png

上图反映了该方法基于的数据和模型的偏差,例如职业与性别之间的相关性。


39e6a1756a6d0b21ac675c36105e5a8c.png


大家从左到右可以发现,该模型无法执行视点更改,可能会对图像进行不必要的过度更改,有时无法隔离指定的对象,并且很难重新组织或交换对象。


结论

本文演示了一种结合两个大型预训练模型(一个大型语言模型和一个文本到图像模型)生成用于训练扩散模型的数据集,以便跟随书面图像编辑指令的方法。虽然该方法能够产生各种各样的令人信服的图像编辑,包括风格、媒介和其他上下文变化,但仍然存在许多限制。


首先,该方法受生成数据的视觉质量的限制,因此会受到生成图像的扩散模型的限制。


其次,该方法在推广新的编辑并在视觉变化和文本指令之间建立正确联系方面的能力受到用于调整GPT-3的人类书面指令的限制,受到GPT-3创建指令和修改标题的能力以及Prompt-to-Prompt修改生成图像的能力的限制。特别是,该模型在计数物品数量和空间推理(例如,将其移到图像的左侧,交换它们的位置或将两个杯子放在桌子上,一个放在椅子上)方面存在困难,就像稳定扩散和提示到提示一样。


最后,本文方法所基于的数据和预训练模型中有着众所周知的偏差,因此该方法生成的编辑图像可能继承这些偏差或引入其他偏差(参考上面那张图)。


不过,除了缓解上述限制外,这篇工作还开启了许多有趣的问题,例如:如何遵循空间推理的指令,如何将指令与其他调节模态(如用户交互)结合起来,以及如何评估基于指令的图像编辑。将人类反馈纳入模型的改进是未来工作的另一个重要领域,策略(如人在循环中的强化学习)可以应用于改善模型与人类意图的一致性。


933404fd91054ede85d123cacba7becd.gif


目录
相关文章
|
8月前
|
编解码 人工智能 测试技术
无需训练,这个新方法实现了生成图像尺寸、分辨率自由
【4月更文挑战第25天】研究人员提出FouriScale方法,解决了扩散模型在生成高分辨率图像时的结构失真问题。通过膨胀卷积和低通滤波,该方法实现不同分辨率下图像的结构和尺度一致性,无需重新训练模型。实验显示FouriScale在保持图像真实性和完整性的同时,能生成任意尺寸的高质量图像,尤其在处理高宽比图像时表现出色。尽管在极高分辨率生成上仍有局限,但为超高清图像合成技术提供了新思路。[链接: https://arxiv.org/abs/2403.12963]
97 5
|
16天前
|
机器学习/深度学习 人工智能 算法
Edicho:多图像一致性编辑,支持即插即用无需训练,快速实现风格转换
Edicho 是蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法,基于扩散模型,支持即插即用,无需额外训练,适用于多种图像编辑任务。
46 8
Edicho:多图像一致性编辑,支持即插即用无需训练,快速实现风格转换
|
23天前
|
人工智能 数据库
Poetry2Image:专为中文古诗词设计的图像生成校正框架,增强了诗歌内容与模型生成图像之间的一致性
Poetry2Image 是一个专为中文古诗词图像生成设计的迭代校正框架,通过自动化反馈和校正循环,提升诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。
40 11
Poetry2Image:专为中文古诗词设计的图像生成校正框架,增强了诗歌内容与模型生成图像之间的一致性
|
23天前
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
50 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
1月前
|
编解码 人工智能
FreeScale:无需微调即可提升模型的图像生成能力,生成 8K 分辨率的高质量图像
FreeScale是一个无需微调的推理框架,旨在提升扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息,首次实现了8K分辨率图像的生成,显著提高了生成内容的质量和保真度,同时减少了推理时间。
82 20
FreeScale:无需微调即可提升模型的图像生成能力,生成 8K 分辨率的高质量图像
|
8月前
|
前端开发 计算机视觉
InstantStyle,无需训练,风格保留文生图
InstantStyle 是一个通用框架,它采用两种简单但有效的技术来实现风格和内容与参考图像的有效分离。
|
8月前
|
人工智能 自然语言处理 数据处理
首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法
Bert-vits2项目又更新了,更新了一个新的分支:中文特化,所谓中文特化,即针对中文音色的特殊优化版本,纯中文底模效果百尺竿头更进一步,同时首次引入了大模型,使用国产IDEA-CCNL/Erlangshen-MegatronBert-1.3B大模型作为Bert特征提取,基本上完全解决了发音的bad case,同时在情感表达方面有大幅提升,可以作为先前V1.0.1纯中文版本更好的替代。
首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
|
机器学习/深度学习 编解码 Go
YOLOv5-Face | 原理超精细讲解、训练步骤还原、C++边缘部署(就要这么学!!!)(一)
YOLOv5-Face | 原理超精细讲解、训练步骤还原、C++边缘部署(就要这么学!!!)(一)
757 0
|
机器学习/深度学习 编解码 人工智能
YOLO虚幻合成数据生成器
UnrealSynth 基于 UE5 虚幻引擎开发,目前支持 YOLO 系列模型合成数据的生成。
198 0