文档备案控制台

开发者社区视觉智能文章正文

多种模态控制的背景生成技术

2023-09-08 668

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在保持输入主体不变的情况下生成背景的需求广泛存在，可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术，背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式，这些引导方式可以组合使用，灵活的控制生成背景的内容。该模型具有很好的通用性，对主体内容无限制，适用各种不同的图像主体，例如各类商品、动物甚至人像等。

一、简介

在保持输入主体不变的情况下生成背景的需求广泛存在，可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术，背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式，这些引导方式可以组合使用，灵活的控制生成背景的内容。该模型具有很好的通用性，对主体内容无限制，适用各种不同的图像主体，例如各类商品、动物甚至人像等。

二、模型结构

首先输入需要生成背景的主体, 使用一种或者多种引导方式来控制生成的背景内容。

三、效果展示

四、生成引导方式

1. 图像引导

使用图像来引导控制背景生成的内容，适用于手头已有合适的图像，想要为主体生成类似的背景。可以免去写文本prompt的烦恼，所见即所得。

引导图像：

生成效果：

2. 文字引导

引导文本: 光滑桌面，窗外有山有水

3. 图像+文字引导

引导图像：

仅图像引导效果：

增加引导文本: 远处有晚霞

图像+文本引导效果如下：

4. 使用边缘进行精确的空间控制

图像引导和文本引导都能对背景的整体环境内容、风格有较好的引导效果。如果需要需要对背景元素的位置形状进行精确的控制，就需要使用呢边缘edge进行生成控制。

引导文本：鲜花盛开。引导图像和引导边缘如下：

生成效果：

还可以设置边缘引导图层到主体图层的上面，形成更加逼真的遮挡效果：

lllcho

目录

相关文章

AI未闻花名

|

5月前

|

机器学习/深度学习自然语言处理定位技术

大模型应用：循序渐进掌握CLIP：领悟训练推理过程的进阶特性.17

本文系统解析CLIP模型：从跨模态对比学习原理、零样本能力本质，到双塔架构、训练机制（InfoNCE损失、温度参数τ）与推理应用（分类/检索/标注），辅以多模板提示工程等实战技巧，揭示其“用图文相关性替代任务学习”的核心思想。

AI未闻花名

848 10 10

开发者小助理

|

运维数据可视化安全

阿里巴巴DevOps实践指南（二十三）| 编排运维

面向编排的运维是指用户（PaaS 服务以及开发、运维、运营等角色）根据实际业务需要，对多个原子组件通过简单编排的方式进行灵活装配，构造出不同的业务流程以便完成一个完整的运维需求。运维编排可以帮助我们更好地规范、管理和执行自动化运维操作，以模板的方式定义所需要进行的操作，然后再通过系统运行，从而提高整体运维操作的效率、增强运维操作的安全性，并避免人工运维的错误。

开发者小助理

1663 0 0

阿里巴巴DevOps实践指南（二十三）| 编排运维

阿里云开发者

|

4月前

|

人工智能安全前端开发

阿里开源 Team 版 OpenClaw，5分钟完成本地安装

HiClaw 是 OpenClaw 的升级版，通过引入 Manager Agent 架构和分布式设计，解决了 OpenClaw 在安全性、多任务协作、移动端体验、记忆管理等方面的核心痛点。

阿里云开发者

2543 61 65

阿里开源 Team 版 OpenClaw，5分钟完成本地安装

简简单单做算法

|

数据采集传感器算法

基于ICP算法的三维点云模型配准matlab仿真

基于ICP算法的三维点云模型配准matlab仿真

简简单单做算法

1360 0 0

xkube

|

6月前

|

Kubernetes 前端开发调度

一文掌握pod亲和性及调度策略

Kubernetes中，Pod是调度的基本单位。通过nodeName、nodeSelector、亲和性等策略，可精细控制Pod部署位置，实现资源优化、低延迟通信与故障隔离。支持硬约束与软约束，结合标签选择器灵活配置。

xkube

651 4 4

武汉频琵

|

11月前

|

存储缓存人工智能

重构高端存储新范式-RDMA+NVMe-oF

`sendfile` 是 Linux 系统中用于高效传输数据的系统调用，支持文件到网络套接字的零拷贝传输，减少 CPU 和内存的开销。它通过建立两个文件描述符之间的传输通道，避免了传统 `read/write` 或 `mmap/write` 方式中的多次数据拷贝和上下文切换。文章探讨了 `sendfile` 的实现原理、性能优势及其在不同存储设备（如 SSD 和 NVMe）下的应用挑战，同时分析了 DMA 技术在数据传输中的作用及限制。此外，还介绍了 NVMe 和 RDMA 等新技术对网络存储架构的影响，展示了现代高性能存储与网络的深度融合趋势。

武汉频琵

472 0 0

hrjtfzpglando

|

7月前

|

存储缓存监控

缓存策略：Redis性能优化

本文系统讲解Redis性能优化十大核心维度，涵盖缓存策略、内存管理、持久化选型、集群架构、热点与大Key处理、监控安全及成本控制，结合微博高并发实战案例，提供从基础配置到架构设计的完整优化方案，助力构建高性能、高可用Redis体系。

hrjtfzpglando

550 0 0

知与谁同

|

JavaScript 关系型数据库 Linux

10个开源的基于WEB的文件管理器

知与谁同

14128 0 0

TsingtaoAI

|

机器学习/深度学习人工智能自然语言处理

TsingtaoAI具身智能机器人开发套件及实训方案

该产品套件创新性地融合了先进大模型技术、深度相机与多轴协作机械臂技术，构建了一个功能强大、灵活易用的人机协作解决方案。其核心在于将智能决策、精准感知与高效执行完美结合，为高校实训领域的发展注入新动力。

TsingtaoAI

1291 10 10

上云小帮手

|

存储弹性计算固态存储

阿里云服务器按量付费是什么？划算吗？

阿里云ECS按量付费模式，先使用后付费，按小时结算，适合临时扩展、测试、电商抢购等短期应用。开通需账户余额不低于100元。实例、镜像、云盘、带宽等支持按量计费，价格根据配置和地区而异。可随时转为包年包月。

上云小帮手

2687 1 1

视觉智能

热门文章

最新文章

【阿里云MVP Meetup 第四期】产业中的“图像识别”分享与探索，干货来袭！

利用机器学习技术进行图像识别

图像识别DM8127开发攻略——MCFW架构中Link相关概念

【图像算法】彩色图像分割专题七：基于分水岭的彩色分割

【图像算法】彩色图像分割专题一：颜色空间1（原理）

5行代码，快速实现图像分割，代码逐行详解，手把手教你处理图像 | 开源

Double DIP ——一种无监督层图像分割 AI 技术

阿里云视觉智能开放平台--文字识别使用教程

【OpenVI—AI热点日报】8月23日

AI短剧/AI广告生成实战流程：阿里云百炼新上线的HappyHorse 1.1功能详解、参数调试、成本指南

测试一下发文章

历史科普视频的AI自动化生产工作流：从全手动到半自动的工程演进

AI短剧/AI广告生成实战流程：阿里云百炼新上线的HappyHorse 1.1功能详解、参数调试、成本指南

Ж-CEH：锚定结构存在论—— 从宇宙虚无到视觉张量的统一框架

一线互联 × Rokid AI眼镜：为什么它是工业4.0时代一线人员的标准装备？

YOLO26如何涨点系列篇（NEU-DET缺陷检测） | CVPR2026 FAAFusion 解决Neck跨尺度方向冲突，实现涨点1.2%

Rokid AI 眼镜远程协作应用"一线互联"开发实践：设备发现与 BLE 扫描

"多路全景视频实时拼接融合"边缘计算网关几种拼接方式

2472.一款图片批量提取工具：从文章到图库，一招搞定素材管理_创建自己的永久免费图床

ECS GPU 上跑 vLLM：模型目录、镜像和 runtime 排查记录

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！