多种模态控制的背景生成技术

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: 在保持输入主体不变的情况下生成背景的需求广泛存在,可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术,背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式,这些引导方式可以组合使用,灵活的控制生成背景的内容。该模型具有很好的通用性,对主体内容无限制,适用各种不同的图像主体,例如各类商品、动物甚至人像等。

一、简介

在保持输入主体不变的情况下生成背景的需求广泛存在,可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术,背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式,这些引导方式可以组合使用,灵活的控制生成背景的内容。该模型具有很好的通用性,对主体内容无限制,适用各种不同的图像主体,例如各类商品、动物甚至人像等。

二、模型结构

image.png

首先输入需要生成背景的主体, 使用一种或者多种引导方式来控制生成的背景内容。

三、效果展示

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png


四、生成引导方式

1. 图像引导

使用图像来引导控制背景生成的内容,适用于手头已有合适的图像,想要为主体生成类似的背景。可以免去写文本prompt的烦恼,所见即所得。

引导图像:

image.png

生成效果:

image.pngimage.png

2. 文字引导

引导文本: 光滑桌面,窗外有山有水

image.pngimage.png

3. 图像+文字引导

引导图像:image.png

仅图像引导效果:

image.pngimage.png

增加引导文本: 远处有晚霞

图像+文本引导效果如下:

image.pngimage.png

4. 使用边缘进行精确的空间控制

图像引导和文本引导都能对背景的整体环境内容、风格有较好的引导效果。如果需要需要对背景元素的位置形状进行精确的控制,就需要使用呢边缘edge进行生成控制。

引导文本:鲜花盛开。引导图像和引导边缘如下:

image.pngimage.png

生成效果:

image.pngimage.png

还可以设置边缘引导图层到主体图层的上面,形成更加逼真的遮挡效果:

image.pngimage.png

目录
相关文章
|
6月前
|
人工智能 搜索推荐
未来多种模型组合是AIGC更可能的方向
【1月更文挑战第10天】未来多种模型组合是AIGC更可能的方向
94 1
未来多种模型组合是AIGC更可能的方向
|
3月前
|
人工智能 移动开发 文字识别
视觉智能开放平台产品使用合集之如何对视频流进行实时分割背景,和替换背景
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
5月前
|
机器学习/深度学习 人工智能 算法
基于AI的图像风格转换系统:技术探索与实现
【6月更文挑战第7天】本文探讨了基于AI的图像风格转换系统的原理与实现,采用神经风格迁移技术,利用CNN分离并结合内容与风格。实现过程包括数据准备、构建模型(如VGG19和生成器网络)、定义内容及风格损失函数、训练模型、评估与调优,最终部署应用。尽管面临训练数据需求、计算复杂度和特定场景适应性的挑战,未来的研究将聚焦于技术提升、减少数据依赖及解决伦理隐私问题,以实现更高效智能的风格转换系统。
|
数据可视化 物联网
Threejs物联网,养殖场3D可视化(三)模型展示,轨道控制器设置,模型沿着路线运动,模型添加边框,自定义样式显示标签,点击模型获取信息
Threejs物联网,养殖场3D可视化(三)模型展示,轨道控制器设置,模型沿着路线运动,模型添加边框,自定义样式显示标签,点击模型获取信息
936 15
Threejs物联网,养殖场3D可视化(三)模型展示,轨道控制器设置,模型沿着路线运动,模型添加边框,自定义样式显示标签,点击模型获取信息
|
机器学习/深度学习 数据采集 TensorFlow
深度学习的实时背景虚化
深度学习的实时背景虚化
96 0
|
文字识别 算法 Shell
突破边界:文本检测算法的革新与应用前景
突破边界:文本检测算法的革新与应用前景
突破边界:文本检测算法的革新与应用前景
|
传感器 人工智能 测试技术
用图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统
用图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统
234 0
|
机器学习/深度学习 存储 人工智能
文本生成图像这么火,你需要了解这些技术的演变(1)
文本生成图像这么火,你需要了解这些技术的演变
198 0
|
编解码 自然语言处理 数据可视化
文本生成图像这么火,你需要了解这些技术的演变(2)
文本生成图像这么火,你需要了解这些技术的演变
186 0
|
传感器 编解码 自然语言处理
文本生成图像这么火,你需要了解这些技术的演变(3)
文本生成图像这么火,你需要了解这些技术的演变
482 0

热门文章

最新文章

  • 1
    2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
    13
  • 2
    2024重生之回溯数据结构与算法系列学习(11)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
    8
  • 3
    2024重生之回溯数据结构与算法系列学习之栈和队列精题汇总(10)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
    10
  • 4
    2024重生之回溯数据结构与算法系列学习之单双链表精题详解(9)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
    11
  • 5
    2024重生之回溯数据结构与算法系列学习(8)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
    12
  • 6
    2024重生之回溯数据结构与算法系列学习(7)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
    8
  • 7
    2024重生之回溯数据结构与算法系列学习之王道第2.3章节之线性表精题汇总二(5)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
    7
  • 8
    23
    7
  • 9
    2024重生之回溯数据结构与算法系列学习之单双链表精题(4)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
    10
  • 10
    2024重生之回溯数据结构与算法系列学习之单双链表【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
    7