可控文生图：EliGen控制实体的位置细节变化

2025-02-08 467

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 为文生图模型增加额外的控制条件一直是AIGC社区研究的重点之一，如ControlNet, IP-Adapter等一直是热门可控生成方法。近期，魔搭社区联合浙江大学对实体级可控文生图进行了探索，并开发了EliGen模型。

01.引言

为文生图模型增加额外的控制条件一直是AIGC社区研究的重点之一，如ControlNet, IP-Adapter等一直是热门可控生成方法。近期，魔搭社区联合浙江大学对实体级可控文生图进行了探索，并开发了EliGen模型。EliGen可以对想要生成的图像中的每个实体的位置和细节进行控制，从而生成具有复杂场景和构图的图像。

EliGen提出了Regional Attention的注意力机制，对扩散模型中的Attention模块进行了通用扩展。同时，基于FLUX和Qwen2-VL，团队构建了500k样本的含有实体级标注的数据集，采用LoRA对EliGen进行了训练。EliGen不仅可以完成实体级的可控文生图任务，还可以对已有图像进行实体级局部重绘。同时，EliGen与社区模型：IP-Adapter、In-Context LoRA等结合，还可以应用在给定风格和角色的实体控制、Logo迁移等场景，具有无限可能。

论文链接：

https://arxiv.org/abs/2501.01097

代码链接：

https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/EntityControl

模型链接：

https://www.modelscope.cn/models/DiffSynth-Studio/Eligen

在线Demo:

https://www.modelscope.cn/studios/DiffSynth-Studio/EliGen

02.EliGen技术方案

Regional Attention实现

EliGen提出了Regional Attention的机制，对扩散模型的注意力机制进行了扩展，使其支持基于任意形状空间信息的实体级控制。我们采用结构化文本向量来表示条件控制信息，包括描述图像整体内容的全局提示词（global prompt）和描述具体细节的多个局部提示词（local prompts）。每个local prompt都附带一个掩码（mask），用于表示其生成区域。基于这些mask，我们针对实体内、实体间和实体与图像的关系构建了attention mask，保证了每个实体的token序列只作用于特定区域。