CreatiLayout：复旦与字节联合推出布局到图像生成技术，支持高质量图像生成与布局优化

2025-01-07 435

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CreatiLayout 是复旦大学与字节跳动联合推出的创新布局到图像生成技术，通过大规模数据集和孪生多模态扩散变换器，实现高质量图像生成与布局优化。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

技术核心：基于孪生多模态扩散变换器，CreatiLayout 实现高质量图像生成与布局优化。
数据集支持：构建了包含 270 万图像-文本对和 1070 万实体标注的大规模布局数据集 LayoutSAM。
多模态交互：通过 SiamLayout 框架，布局信息与图像模态独立交互，解决模态竞争问题。

CreatiLayout 是什么

公众号: 蚝油菜花 - CreatiLayout

CreatiLayout 是复旦大学和字节跳动联合提出的创新布局到图像生成（Layout-to-Image, L2I）技术。该技术通过构建大规模的布局数据集 LayoutSAM，包含 270 万图像-文本对和 1070 万个实体标注，每个实体都详细描述了颜色、形状、纹理等属性。

CreatiLayout 的核心在于其 SiamLayout 框架，该框架将布局信息视为一种独立的模态，通过 MM-DiT 原生的 MM-Attention 实现布局与图像模态的交互，有效解决了模态竞争问题。此外，CreatiLayout 还引入了 LayoutDesigner，基于大语言模型帮助用户生成和优化布局，支持多种输入方式，如中心点、掩码、草图和文本描述等。

CreatiLayout 的主要功能

高质量图像生成：基于孪生多模态扩散变换器（Siamese Multimodal Diffusion Transformer），CreatiLayout 能生成高质量和细粒度可控的图像，精确渲染复杂的属性，如颜色、纹理、形状等。
布局生成与优化：通过 LayoutDesigner，CreatiLayout 可以根据用户的多种输入（如中心点、掩码、草图、文本描述等）生成和优化布局，使用户能更灵活地表达设计意图，生成和谐美观的布局。
大规模数据集支持：CreatiLayout 构建了名为 LayoutSAM 的大规模布局数据集，包含 270 万图像-文本对和 1070 万个实体标注，为模型提供了丰富的数据支持。
多模态交互：在模型架构上，CreatiLayout 将布局信息视为一种独立的模态，通过 MM-DiT 的 MM-Attention 实现布局与图像模态的交互。

CreatiLayout 的技术原理

孪生多模态扩散变换器：CreatiLayout 基于这种变换器来实现高质量和细粒度可控的图像生成，能有效地处理多模态数据，包括图像、文本和布局信息。
SiamLayout 框架：该框架将布局信息视为一种独立的模态，并与文本和图像模态同等重要。通过 MM-DiT 原生的 MM-Attention 实现布局模态与图像模态的交互，缓解了模态竞争问题，增强了布局的指导作用。
LayoutDesigner：基于大型语言模型进行布局规划和优化，支持用户通过多种输入形式（如中心点、掩码、草图、文本描述等）生成和优化布局。

如何运行 CreatiLayout

1. 环境配置

首先，创建一个 Conda 环境并安装所需的依赖：

conda create -n creatilayout python=3.10 -y
conda activate creatilayout
conda install pytorch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt