可控文生图:EliGen控制实体的位置细节变化

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 为文生图模型增加额外的控制条件一直是AIGC社区研究的重点之一,如ControlNet, IP-Adapter等一直是热门可控生成方法。近期,魔搭社区联合浙江大学对实体级可控文生图进行了探索,并开发了EliGen模型。

01.引言

为文生图模型增加额外的控制条件一直是AIGC社区研究的重点之一,如ControlNet, IP-Adapter等一直是热门可控生成方法。近期,魔搭社区联合浙江大学对实体级可控文生图进行了探索,并开发了EliGen模型。EliGen可以对想要生成的图像中的每个实体的位置和细节进行控制,从而生成具有复杂场景和构图的图像。

EliGen提出了Regional Attention的注意力机制,对扩散模型中的Attention模块进行了通用扩展。同时,基于FLUX和Qwen2-VL,团队构建了500k样本的含有实体级标注的数据集,采用LoRA对EliGen进行了训练。EliGen不仅可以完成实体级的可控文生图任务,还可以对已有图像进行实体级局部重绘。同时,EliGen与社区模型:IP-Adapter、In-Context LoRA等结合,还可以应用在给定风格和角色的实体控制、Logo迁移等场景,具有无限可能。


论文链接:

https://arxiv.org/abs/2501.01097

代码链接:

https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/EntityControl

模型链接:

https://www.modelscope.cn/models/DiffSynth-Studio/Eligen

在线Demo:

https://www.modelscope.cn/studios/DiffSynth-Studio/EliGen

02.EliGen技术方案

Regional Attention实现

EliGen提出了Regional Attention的机制,对扩散模型的注意力机制进行了扩展,使其支持基于任意形状空间信息的实体级控制。我们采用结构化文本向量来表示条件控制信息,包括描述图像整体内容的全局提示词(global prompt)和描述具体细节的多个局部提示词(local prompts)。每个local prompt都附带一个掩码(mask),用于表示其生成区域。基于这些mask,我们针对实体内、实体间和实体与图像的关系构建了attention mask,保证了每个实体的token序列只作用于特定区域。

训练数据生成和模型训练

使用Regional Attention对模型进行扩展后,可以发现它不经过训练也能改变某些区域的实体属性,比如颜色。但是未经训练的模型无法控制图像的布局。为了激活EliGen的空间控制能力,我们构建了带实体标注的数据集,采用LoRA,对实体控制任务进行了特化训练。

如下图所示,我们从DiffusionDB数据集的文本Prompt出发,使用FLUX.1-dev生成了500k训练图像。进一步,利用Qwen2-VL 72B的强大图像理解和grounding能力,对训练样本进行了重描述 (recaption),同时对图像中的实体的语义和位置信息进行了标注。

最终,经过训练,EliGen模型具有出色的实体级位置和细节控制能力,图像生成质量远超同类模型,在许多场景都有应用的潜力。

03.应用场景

复杂构图的实体级构建

代码:

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/EntityControl/entity_control.py

图像局部重绘

代码:

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/EntityControl/entity_inpaint.py

特定风格的实体控制

代码:

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/EntityControl/entity_control_ipadapter.py

Logo迁移

代码:

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/EntityControl/entity_transfer.py

点击链接链接阅读原文,即可跳转模型~

EliGen 实体级可控文生图模型

目录
相关文章
|
8月前
|
存储 人工智能 缓存
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
DiffSplat 是由北京大学和字节跳动联合推出的一个高效 3D 生成框架,能够在 1-2 秒内从文本提示或单视图图像生成高质量的 3D 高斯点阵,并确保多视图下的一致性。
368 19
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
|
8月前
|
Swift
DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践
Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。
787 19
DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践
|
3月前
|
JSON 人工智能 数据挖掘
LLM开发者必备:掌握21种分块策略让RAG应用性能翻倍
本文将系统介绍21种文本分块策略,从基础方法到高级技术,并详细分析每种策略的适用场景,以帮助开发者构建更加可靠的RAG系统。
225 0
LLM开发者必备:掌握21种分块策略让RAG应用性能翻倍
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
文生图关键问题探索
文生图(Text-to-Image Generation)是AIGC的重要方向,近年来模型效果显著提升,受到投资界与研究界高度关注。本文从评测体系、可控生成、个性化模型及高质量数据集四个角度探讨该领域面临的关键问题与研究进展。尽管生成模型如Diffusion Model和Stable Diffusion在效果与效率上突破显著,但在文本理解、生成控制、模型定制及数据质量等方面仍存在挑战。如何建立统一的评价标准、提升生成与文本的一致性、实现个性化定制及构建高质量多语言数据集,是未来研究与应用的关键方向。文生图的发展有望推动人机交互方式变革,成为人工智能迈向“人性化”的重要一步。
|
7月前
|
开发者 异构计算
高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!
通义万相Wan2.1开源不到一周,已登顶HuggingFace Model 和 Space 榜双榜首,在HuggingFace和ModelScope平台的累计下载量突破100万次,社区热度持续攀升!为响应小伙伴们对ComfyUI工作流运行Wan2.1的强烈需求,社区开发者整理了实战教程👇
5962 23
高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!
|
8月前
|
数据可视化 关系型数据库 MySQL
嵌入式C++、STM32、MySQL、GPS、InfluxDB和MQTT协议数据可视化
通过本文的介绍,我们详细讲解了如何结合嵌入式C++、STM32、MySQL、GPS、InfluxDB和MQTT协议,实现数据的采集、传输、存储和可视化。这种架构在物联网项目中非常常见,可以有效地处理和展示实时数据。希望本文能帮助您更好地理解和应用这些技术,构建高效、可靠的数据处理和可视化系统。
402 82
|
11月前
|
存储 边缘计算 物联网
揭秘边缘计算:物联网时代的分布式智能
揭秘边缘计算:物联网时代的分布式智能
609 92
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepRant:一款专为国际游戏玩家设计的翻译工具,一键翻译聊天对话,无需切出游戏
专为游戏玩家设计的多语言快捷翻译工具,支持多种翻译模式和主流语言,基于Tauri和React开发。
489 12
DeepRant:一款专为国际游戏玩家设计的翻译工具,一键翻译聊天对话,无需切出游戏
|
8月前
|
机器学习/深度学习 人工智能 并行计算
BEN2:一键快速抠图!自动移除图像和视频中的背景,支持在线使用
BEN2 是由 Prama LLC 开发的深度学习模型,专注于从图像和视频中快速移除背景并提取前景,支持高分辨率处理和GPU加速。
529 10
BEN2:一键快速抠图!自动移除图像和视频中的背景,支持在线使用

热门文章

最新文章