可控文生图:EliGen控制实体的位置细节变化

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 为文生图模型增加额外的控制条件一直是AIGC社区研究的重点之一,如ControlNet, IP-Adapter等一直是热门可控生成方法。近期,魔搭社区联合浙江大学对实体级可控文生图进行了探索,并开发了EliGen模型。

01.引言

为文生图模型增加额外的控制条件一直是AIGC社区研究的重点之一,如ControlNet, IP-Adapter等一直是热门可控生成方法。近期,魔搭社区联合浙江大学对实体级可控文生图进行了探索,并开发了EliGen模型。EliGen可以对想要生成的图像中的每个实体的位置和细节进行控制,从而生成具有复杂场景和构图的图像。

EliGen提出了Regional Attention的注意力机制,对扩散模型中的Attention模块进行了通用扩展。同时,基于FLUX和Qwen2-VL,团队构建了500k样本的含有实体级标注的数据集,采用LoRA对EliGen进行了训练。EliGen不仅可以完成实体级的可控文生图任务,还可以对已有图像进行实体级局部重绘。同时,EliGen与社区模型:IP-Adapter、In-Context LoRA等结合,还可以应用在给定风格和角色的实体控制、Logo迁移等场景,具有无限可能。


论文链接:

https://arxiv.org/abs/2501.01097

代码链接:

https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/EntityControl

模型链接:

https://www.modelscope.cn/models/DiffSynth-Studio/Eligen

在线Demo:

https://www.modelscope.cn/studios/DiffSynth-Studio/EliGen

02.EliGen技术方案

Regional Attention实现

EliGen提出了Regional Attention的机制,对扩散模型的注意力机制进行了扩展,使其支持基于任意形状空间信息的实体级控制。我们采用结构化文本向量来表示条件控制信息,包括描述图像整体内容的全局提示词(global prompt)和描述具体细节的多个局部提示词(local prompts)。每个local prompt都附带一个掩码(mask),用于表示其生成区域。基于这些mask,我们针对实体内、实体间和实体与图像的关系构建了attention mask,保证了每个实体的token序列只作用于特定区域。

训练数据生成和模型训练

使用Regional Attention对模型进行扩展后,可以发现它不经过训练也能改变某些区域的实体属性,比如颜色。但是未经训练的模型无法控制图像的布局。为了激活EliGen的空间控制能力,我们构建了带实体标注的数据集,采用LoRA,对实体控制任务进行了特化训练。

如下图所示,我们从DiffusionDB数据集的文本Prompt出发,使用FLUX.1-dev生成了500k训练图像。进一步,利用Qwen2-VL 72B的强大图像理解和grounding能力,对训练样本进行了重描述 (recaption),同时对图像中的实体的语义和位置信息进行了标注。

最终,经过训练,EliGen模型具有出色的实体级位置和细节控制能力,图像生成质量远超同类模型,在许多场景都有应用的潜力。

03.应用场景

复杂构图的实体级构建

代码:

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/EntityControl/entity_control.py

图像局部重绘

代码:

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/EntityControl/entity_inpaint.py

特定风格的实体控制

代码:

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/EntityControl/entity_control_ipadapter.py

Logo迁移

代码:

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/EntityControl/entity_transfer.py

点击链接链接阅读原文,即可跳转模型~

EliGen 实体级可控文生图模型

目录
相关文章
|
机器学习/深度学习 图计算 图形学
同构图、异构图、属性图、非显式图
同构图(Homogeneous Graph)、异构图(Heterogeneous Graph)、属性图(Property Graph)和非显式图(Graph Constructed from Non-relational Data)。 (1)同构图:
2161 0
同构图、异构图、属性图、非显式图
|
20天前
|
机器学习/深度学习 物联网
可控文生图:EliGen控制实体的位置细节变化
可控文生图:EliGen控制实体的位置细节变化
|
1月前
|
机器学习/深度学习 监控 自动驾驶
《LSTM:开启图像动态场景理解与时间变化信息捕捉的新旅程》
在计算机视觉中,理解图像动态场景并捕捉时间变化信息极具挑战。LSTM作为一种深度学习模型,通过将图像帧序列化并结合CNN提取的空间特征,有效捕捉帧间的时间依赖关系。LSTM的门控机制(遗忘门、输入门和输出门)能智能处理图像序列中的信息,过滤无关数据,保留关键变化。该方法广泛应用于自动驾驶、视频监控及虚拟现实等领域,提升了动态场景的理解与预测能力。
69 13
|
1月前
|
计算机视觉
YOLOv11改进策略【卷积层】| CGblock 内容引导网络 利用不同层次信息,提高多类别分类能力 (含二次创新)
YOLOv11改进策略【卷积层】| CGblock 内容引导网络 利用不同层次信息,提高多类别分类能力 (含二次创新)
78 0
|
4月前
|
前端开发 JavaScript
网页简单布局之结构与表现原则分享
网页简单布局之结构与表现原则分享
113 9
|
7月前
|
测试技术
探索软件测试的多维视角:从单元到系统,从静态到动态
【8月更文挑战第27天】本文将带领读者穿越软件测试的迷宫,从最微小的单元测试开始,逐步扩展到复杂的系统测试。我们将一起探索静态测试和动态测试的不同面貌,以及它们如何互补地确保软件质量。通过实际代码示例,我们将揭示测试用例的设计思路和执行过程,旨在为读者提供一个全面而深入的软件测试全景图。让我们开始这段旅程,解锁软件测试的秘密,确保我们的代码不仅能够运行,而且能够完美运行。
|
10月前
[贴装专题] 贴装流程中涉及到的位置关系计算
[贴装专题] 贴装流程中涉及到的位置关系计算
84 0
|
算法
基于自动亮度对比度增强功能的可逆数据隐藏(Matlab代码实现)
基于自动亮度对比度增强功能的可逆数据隐藏(Matlab代码实现)
159 0
|
数据可视化 vr&ar 计算机视觉
使用标记增强技术将虚拟内容呈现到现实场景中
使用基于标记的增强现实将虚拟内容呈现到场景中。
206 0
|
计算机视觉
当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换(1)
当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换
190 0

热门文章

最新文章