多种模态控制的背景生成技术

简介: 在保持输入主体不变的情况下生成背景的需求广泛存在,可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术,背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式,这些引导方式可以组合使用,灵活的控制生成背景的内容。该模型具有很好的通用性,对主体内容无限制,适用各种不同的图像主体,例如各类商品、动物甚至人像等。

一、简介

在保持输入主体不变的情况下生成背景的需求广泛存在,可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术,背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式,这些引导方式可以组合使用,灵活的控制生成背景的内容。该模型具有很好的通用性,对主体内容无限制,适用各种不同的图像主体,例如各类商品、动物甚至人像等。

二、模型结构

image.png

首先输入需要生成背景的主体, 使用一种或者多种引导方式来控制生成的背景内容。

三、效果展示

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png

image.pngimage.png


四、生成引导方式

1. 图像引导

使用图像来引导控制背景生成的内容,适用于手头已有合适的图像,想要为主体生成类似的背景。可以免去写文本prompt的烦恼,所见即所得。

引导图像:

image.png

生成效果:

image.pngimage.png

2. 文字引导

引导文本: 光滑桌面,窗外有山有水

image.pngimage.png

3. 图像+文字引导

引导图像:image.png

仅图像引导效果:

image.pngimage.png

增加引导文本: 远处有晚霞

图像+文本引导效果如下:

image.pngimage.png

4. 使用边缘进行精确的空间控制

图像引导和文本引导都能对背景的整体环境内容、风格有较好的引导效果。如果需要需要对背景元素的位置形状进行精确的控制,就需要使用呢边缘edge进行生成控制。

引导文本:鲜花盛开。引导图像和引导边缘如下:

image.pngimage.png

生成效果:

image.pngimage.png

还可以设置边缘引导图层到主体图层的上面,形成更加逼真的遮挡效果:

image.pngimage.png

目录
相关文章
|
Linux Shell 数据安全/隐私保护
超简单五步实现Linux虚拟机CentOS 7系统Root密码忘记重置
超简单五步实现Linux虚拟机CentOS 7系统Root密码忘记重置
2058 0
vscode 向下复制当前行功能快捷键 设置成Ctrl + D
vscode 向下复制当前行功能快捷键 设置成Ctrl + D
2141 0
|
10天前
|
人工智能 安全 前端开发
阿里开源 Team 版 OpenClaw,5分钟完成本地安装
HiClaw 是 OpenClaw 的升级版,通过引入 Manager Agent 架构和分布式设计,解决了 OpenClaw 在安全性、多任务协作、移动端体验、记忆管理等方面的核心痛点。
1249 40
阿里开源 Team 版 OpenClaw,5分钟完成本地安装
|
存储 关系型数据库 MySQL
10个案例告诉你mysql不使用子查询的原因
大家好,我是V哥。上周与朋友讨论数据库子查询问题,深受启发。为此,我整理了10个案例,详细说明如何通过优化子查询提升MySQL性能。主要问题包括性能瓶颈、索引失效、查询优化器复杂度及数据传输开销等。解决方案涵盖使用EXISTS、JOIN、IN操作符、窗口函数、临时表及索引优化等。希望通过这些案例,帮助大家在实际开发中选择更高效的查询方式,提升系统性能。关注V哥,一起探讨技术,欢迎点赞支持!
626 5
|
12月前
|
数据采集 安全 API
使用开源项目和IP代理快速获取谷歌学术论文资源并通过大模型提炼信息
使用开源项目和IP代理快速获取谷歌学术论文资源并通过大模型提炼信息
|
数据挖掘
InsTag:大语言模型监督微调数据标签标注工具
魔搭社区发布了一个名为“InsTagger”的工具,用于分析LLM(大语言模型)中符合人类偏好的监督微调(SFT)数据。InsTagger 是基于 InsTag 方法训练的本地指令标签标注器,用于为符合人类偏好的监督微调数据集中的指令标注描述其意图和语义的标签,从而指导指令的分流或监督微调数据集的分析。
|
存储 弹性计算 固态存储
阿里云服务器按量付费是什么?划算吗?
阿里云ECS按量付费模式,先使用后付费,按小时结算,适合临时扩展、测试、电商抢购等短期应用。开通需账户余额不低于100元。实例、镜像、云盘、带宽等支持按量计费,价格根据配置和地区而异。可随时转为包年包月。
2470 1
|
安全 物联网 开发工具
《哇塞!flux.1 loras 竟如此神奇?十个问题带你揭开它的神秘面纱,开启震撼科技之旅!》
【8月更文挑战第20天】flux.1 LoraS 是一种基于LoRa的远距离、低功耗无线通信技术,适用于物联网领域。它利用扩频技术提升抗干扰性和传输距离,可在智能农业、物流等多种场景中部署。具备远距离传输、低能耗、高可靠性的特点,并支持AES-128加密确保安全通信。开发者可通过特定硬件和软件工具进行开发。随着物联网技术的发展,flux.1 LoraS 展现出广阔的应用前景。
437 2
|
测试技术
千问文本分类任务微调
这段代码定义了一个`predict`函数,它使用Hugging Face的`AutoModelForCausalLM`和`AutoTokenizer`来生成对话回复。模型和tokenizer分别从指定路径加载,然后对输入的`messages`(包含指令和用户输入)进行处理,通过模型生成响应。代码最后展示了一个测试用例,其中讨论了历史人物的评价。模型的输出被打印出来。整个流程涉及预处理、模型推理和后处理,用于生成与历史相关的内容。
541 6
|
JSON API 开发者
淘宝商品销量数据接口:获取与利用全攻略
淘宝商品销量数据接口让开发者获取平台上商品的销量信息。首先,需在开放平台注册并创建应用;随后获取API密钥(appkey与appsecret),用于身份验证。参考官方文档了解接口详情,通过HTTP请求调用接口并设置参数如商品ID。接口返回JSON格式数据,需用编程语言解析提取销量数据。示例代码展示了如何使用Python和requests库调用接口及打印结果。使用时应遵守规定,避免违规行为,并关注接口更新。若无开发能力,可选用第三方服务但需谨慎评估。
1160 0

热门文章

最新文章