多种模态控制的背景生成技术

简介: 在保持输入主体不变的情况下生成背景的需求广泛存在,可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术,背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式,这些引导方式可以组合使用,灵活的控制生成背景的内容。该模型具有很好的通用性,对主体内容无限制,适用各种不同的图像主体,例如各类商品、动物甚至人像等。

一、简介

在保持输入主体不变的情况下生成背景的需求广泛存在,可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术,背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式,这些引导方式可以组合使用,灵活的控制生成背景的内容。该模型具有很好的通用性,对主体内容无限制,适用各种不同的图像主体,例如各类商品、动物甚至人像等。

二、模型结构

image.png

首先输入需要生成背景的主体, 使用一种或者多种引导方式来控制生成的背景内容。

三、效果展示

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png


四、生成引导方式

1. 图像引导

使用图像来引导控制背景生成的内容,适用于手头已有合适的图像,想要为主体生成类似的背景。可以免去写文本prompt的烦恼,所见即所得。

引导图像:

image.png

生成效果:

image.pngimage.png

2. 文字引导

引导文本: 光滑桌面,窗外有山有水

image.pngimage.png

3. 图像+文字引导

引导图像:image.png

仅图像引导效果:

image.pngimage.png

增加引导文本: 远处有晚霞

图像+文本引导效果如下:

image.pngimage.png

4. 使用边缘进行精确的空间控制

图像引导和文本引导都能对背景的整体环境内容、风格有较好的引导效果。如果需要需要对背景元素的位置形状进行精确的控制,就需要使用呢边缘edge进行生成控制。

引导文本:鲜花盛开。引导图像和引导边缘如下:

image.pngimage.png

生成效果:

image.pngimage.png

还可以设置边缘引导图层到主体图层的上面,形成更加逼真的遮挡效果:

image.pngimage.png

目录
相关文章
|
15天前
|
API 人机交互 Android开发
安卓动画和过渡效果:增强视觉吸引力
【4月更文挑战第13天】本文探讨了如何在安卓应用中实现流畅的动画和过渡效果以提升用户体验。介绍了四种动画框架:View Animations、Property Animations、Drawable Animations和Transitions,以及MotionLayout(Android Jetpack)用于复杂动画。设计原则包括有意义、流畅、适当持续时间和用户控制。实现方法涉及基本View Animations、Property Animations、Transitions API以及使用MotionLayout。
|
1月前
|
机器学习/深度学习 搜索推荐 物联网
微软开源创新LoRA组合方法,增强文生图复杂细节控制
微软研究团队推出Multi-LoRA Composition技术,改善文本到图像模型的细节控制。利用低秩适应(LoRA)提升图像生成精度,通过LORA SWITCH和LORA COMPOSITE解决组合复杂图像的挑战。新方法在ComposLoRA平台上测试,性能优于基线,为图像生成和个性化内容创作开辟新途径。尽管有学习曲线和定制需求优化的问题,但该研究仍为领域带来显著进步。
237 3
微软开源创新LoRA组合方法,增强文生图复杂细节控制
|
数据可视化 物联网
Threejs物联网,养殖场3D可视化(三)模型展示,轨道控制器设置,模型沿着路线运动,模型添加边框,自定义样式显示标签,点击模型获取信息
Threejs物联网,养殖场3D可视化(三)模型展示,轨道控制器设置,模型沿着路线运动,模型添加边框,自定义样式显示标签,点击模型获取信息
765 0
Threejs物联网,养殖场3D可视化(三)模型展示,轨道控制器设置,模型沿着路线运动,模型添加边框,自定义样式显示标签,点击模型获取信息
|
11月前
|
传感器 人工智能 测试技术
用图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统
用图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统
212 0
|
11月前
|
机器学习/深度学习 编解码 计算机视觉
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换
|
11月前
|
机器学习/深度学习 数据可视化 计算机视觉
NeurIPS 2022 | 一句话让三维模型生成逼真外观风格,精细到照片级细节
NeurIPS 2022 | 一句话让三维模型生成逼真外观风格,精细到照片级细节
107 0
|
11月前
|
机器学习/深度学习 数据可视化 Java
CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征
CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征
121 0
|
11月前
|
数据可视化
视觉可视化分析与设计
Visualization Analysis & Design
84 0
|
11月前
|
机器学习/深度学习 编解码 定位技术
风格迁移 图像合成 图像重构 更换姿态和图像背景(使用交叉注意控制进行提示到图像编辑)GAN网络增强版
风格迁移 图像合成 图像重构 更换姿态和图像背景(使用交叉注意控制进行提示到图像编辑)GAN网络增强版
117 0
|
数据可视化 异构计算
【视觉基础篇】17 # 如何使用后期处理通道增强图像效果?
【视觉基础篇】17 # 如何使用后期处理通道增强图像效果?
68 0
【视觉基础篇】17 # 如何使用后期处理通道增强图像效果?