多种模态控制的背景生成技术

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: 在保持输入主体不变的情况下生成背景的需求广泛存在,可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术,背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式,这些引导方式可以组合使用,灵活的控制生成背景的内容。该模型具有很好的通用性,对主体内容无限制,适用各种不同的图像主体,例如各类商品、动物甚至人像等。

一、简介

在保持输入主体不变的情况下生成背景的需求广泛存在,可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术,背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式,这些引导方式可以组合使用,灵活的控制生成背景的内容。该模型具有很好的通用性,对主体内容无限制,适用各种不同的图像主体,例如各类商品、动物甚至人像等。

二、模型结构

image.png

首先输入需要生成背景的主体, 使用一种或者多种引导方式来控制生成的背景内容。

三、效果展示

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png


四、生成引导方式

1. 图像引导

使用图像来引导控制背景生成的内容,适用于手头已有合适的图像,想要为主体生成类似的背景。可以免去写文本prompt的烦恼,所见即所得。

引导图像:

image.png

生成效果:

image.pngimage.png

2. 文字引导

引导文本: 光滑桌面,窗外有山有水

image.pngimage.png

3. 图像+文字引导

引导图像:image.png

仅图像引导效果:

image.pngimage.png

增加引导文本: 远处有晚霞

图像+文本引导效果如下:

image.pngimage.png

4. 使用边缘进行精确的空间控制

图像引导和文本引导都能对背景的整体环境内容、风格有较好的引导效果。如果需要需要对背景元素的位置形状进行精确的控制,就需要使用呢边缘edge进行生成控制。

引导文本:鲜花盛开。引导图像和引导边缘如下:

image.pngimage.png

生成效果:

image.pngimage.png

还可以设置边缘引导图层到主体图层的上面,形成更加逼真的遮挡效果:

image.pngimage.png

目录
相关文章
|
6月前
|
人工智能 搜索推荐
未来多种模型组合是AIGC更可能的方向
【1月更文挑战第10天】未来多种模型组合是AIGC更可能的方向
94 1
未来多种模型组合是AIGC更可能的方向
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
|
6天前
|
算法 物联网 开发者
In-Context LoRA实现高效多任务图像生成,开启视觉创作新篇章
这篇文章介绍了通义实验室提出的In-Context LoRA,这是一种基于现有文本到图像模型的任务无关性框架,用于实现高质量的多任务图像生成。
In-Context LoRA实现高效多任务图像生成,开启视觉创作新篇章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
DGLM(Diffusion Guided Language Modeling)是一种新型框架,结合了自回归模型的流畅性和扩散模型的灵活性,解决了现有引导生成方法的局限性。DGLM通过扩散网络生成语义提案,并使用轻量级提示生成器将嵌入转化为软提示,引导自回归解码器生成文本。该方法无需微调模型权重,易于控制新属性,并在多个基准数据集上表现出色。实验结果显示,DGLM在毒性缓解、情感控制和组合控制等方面优于现有方法,为可控文本生成提供了新的方向。
47 10
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
|
5月前
|
机器学习/深度学习 人工智能 算法
基于AI的图像风格转换系统:技术探索与实现
【6月更文挑战第7天】本文探讨了基于AI的图像风格转换系统的原理与实现,采用神经风格迁移技术,利用CNN分离并结合内容与风格。实现过程包括数据准备、构建模型(如VGG19和生成器网络)、定义内容及风格损失函数、训练模型、评估与调优,最终部署应用。尽管面临训练数据需求、计算复杂度和特定场景适应性的挑战,未来的研究将聚焦于技术提升、减少数据依赖及解决伦理隐私问题,以实现更高效智能的风格转换系统。
|
文字识别 算法 Shell
突破边界:文本检测算法的革新与应用前景
突破边界:文本检测算法的革新与应用前景
突破边界:文本检测算法的革新与应用前景
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
|
编解码 自然语言处理 数据可视化
文本生成图像这么火,你需要了解这些技术的演变(2)
文本生成图像这么火,你需要了解这些技术的演变
191 0
|
传感器 编解码 自然语言处理
文本生成图像这么火,你需要了解这些技术的演变(3)
文本生成图像这么火,你需要了解这些技术的演变
489 0
|
机器学习/深度学习 存储 人工智能
文本生成图像这么火,你需要了解这些技术的演变(1)
文本生成图像这么火,你需要了解这些技术的演变
207 0
下一篇
无影云桌面