CreatiLayout:复旦与字节联合推出布局到图像生成技术,支持高质量图像生成与布局优化

简介: CreatiLayout 是复旦大学与字节跳动联合推出的创新布局到图像生成技术,通过大规模数据集和孪生多模态扩散变换器,实现高质量图像生成与布局优化。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术核心:基于孪生多模态扩散变换器,CreatiLayout 实现高质量图像生成与布局优化。
  2. 数据集支持:构建了包含 270 万图像-文本对和 1070 万实体标注的大规模布局数据集 LayoutSAM。
  3. 多模态交互:通过 SiamLayout 框架,布局信息与图像模态独立交互,解决模态竞争问题。

CreatiLayout 是什么

公众号: 蚝油菜花 - CreatiLayout

CreatiLayout 是复旦大学和字节跳动联合提出的创新布局到图像生成(Layout-to-Image, L2I)技术。该技术通过构建大规模的布局数据集 LayoutSAM,包含 270 万图像-文本对和 1070 万个实体标注,每个实体都详细描述了颜色、形状、纹理等属性。

CreatiLayout 的核心在于其 SiamLayout 框架,该框架将布局信息视为一种独立的模态,通过 MM-DiT 原生的 MM-Attention 实现布局与图像模态的交互,有效解决了模态竞争问题。此外,CreatiLayout 还引入了 LayoutDesigner,基于大语言模型帮助用户生成和优化布局,支持多种输入方式,如中心点、掩码、草图和文本描述等。

CreatiLayout 的主要功能

  • 高质量图像生成:基于孪生多模态扩散变换器(Siamese Multimodal Diffusion Transformer),CreatiLayout 能生成高质量和细粒度可控的图像,精确渲染复杂的属性,如颜色、纹理、形状等。
  • 布局生成与优化:通过 LayoutDesigner,CreatiLayout 可以根据用户的多种输入(如中心点、掩码、草图、文本描述等)生成和优化布局,使用户能更灵活地表达设计意图,生成和谐美观的布局。
  • 大规模数据集支持:CreatiLayout 构建了名为 LayoutSAM 的大规模布局数据集,包含 270 万图像-文本对和 1070 万个实体标注,为模型提供了丰富的数据支持。
  • 多模态交互:在模型架构上,CreatiLayout 将布局信息视为一种独立的模态,通过 MM-DiT 的 MM-Attention 实现布局与图像模态的交互。

CreatiLayout 的技术原理

  • 孪生多模态扩散变换器:CreatiLayout 基于这种变换器来实现高质量和细粒度可控的图像生成,能有效地处理多模态数据,包括图像、文本和布局信息。
  • SiamLayout 框架:该框架将布局信息视为一种独立的模态,并与文本和图像模态同等重要。通过 MM-DiT 原生的 MM-Attention 实现布局模态与图像模态的交互,缓解了模态竞争问题,增强了布局的指导作用。
  • LayoutDesigner:基于大型语言模型进行布局规划和优化,支持用户通过多种输入形式(如中心点、掩码、草图、文本描述等)生成和优化布局。

如何运行 CreatiLayout

1. 环境配置

首先,创建一个 Conda 环境并安装所需的依赖:

conda create -n creatilayout python=3.10 -y
conda activate creatilayout
conda install pytorch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt

2. 运行示例代码

你可以通过以下代码生成图像:

python test_sample.py

3. 在线体验

你也可以通过 Hugging Face 的在线 Demo 体验 CreatiLayout 的功能:
https://huggingface.co/spaces/HuiZhang0812/CreatiLayout

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
数据采集 编解码 Java
解锁Hutool魔法箱:Java开发者不可错过的神奇工具集
解锁Hutool魔法箱:Java开发者不可错过的神奇工具集
910 0
|
存储 C语言
C 语言文件读取全指南:打开、读取、逐行输出
要从文件读取,可以使用 r 模式: FILE *fptr; // 以读取模式打开文件 fptr = fopen("filename.txt", "r"); 这将使 filename.txt 打开以进行读取。 在 C 中读取文件需要一点工作。坚持住!我们将一步一步地指导您。 接下来,我们需要创建一个足够大的字符串来存储文件的内容。 例如,让我们创建一个可以存储多达 100 个字符的字符串:
1953 2
C 语言文件读取全指南:打开、读取、逐行输出
|
SQL Oracle 关系型数据库
SQL Developer生成Oracle数据库的关系模型(ER图)
SQL Developer生成Oracle数据库的关系模型(ER图)
1578 0
|
11月前
|
机器学习/深度学习 人工智能 安全
AI 真会编程还是只会“背题” | Code Bench 专场直播带你洞悉代码能力的真实象限
AI 编程助手已成为开发者不可或缺的伙伴,但一个核心问题也随之而来:我们该如何衡量它们真正的代码实力?现有 Benchmark(基准测试)正面临严峻挑战——数据污染、测试用例不足等问题频出,导致模型排
677 2
|
机器学习/深度学习 人工智能 安全
云工开物合作动态丨2025西安交通大学 -阿里云课程(第一批)上线
2025年春季学期,西安交通大学联合阿里云推出九门特色课程,涵盖工程、法律、生命科学、经济管理等领域。这些课程打破传统学科壁垒,提供AI实践工具、动手实验资源及专属算力支持,帮助学生在理论学习之余进行实际操作,提升能力。结课后还将颁发阿里云创作者证书,助力学生成长为跨领域复合型人才。无论专业背景如何,都能找到适合自己的AI进化路径。机会难得,不容错过!
|
10月前
|
机器学习/深度学习 编解码 算法
对三种雷达信号调制类型的识别及MATLAB实现
对三种雷达信号调制类型的识别及MATLAB实现
|
存储 弹性计算 固态存储
阿里云服务器收费标准租用价格及价格计算器使用参考
阿里云服务器租用价格参考,不同时期阿里云服务器的租用价格不同,2024年阿里云多款云服务器的收费标准都做了降价调整,最高降幅达93%,同时,阿里云还推出了多款价格比较实惠的云服务器,现在购买阿里云轻量应用服务器2核2G3M带宽82元1年,经济型e实例ECS云服务器2核2G3M带宽新购和续费优惠价99元1年,通用算力型u1实例2核4G5M带宽新购和续费优惠价199元1年,4核8G云服务器955元1年,本文为大家介绍一下阿里云服务器的最新收费标准租用价格以及使用价格计算器查询云服务器价格的方法。
|
安全 Linux 文件存储
在Linux中,服务器开不了机怎么解决⼀步步的排查?
在Linux中,服务器开不了机怎么解决⼀步步的排查?
|
SQL 数据挖掘 关系型数据库
SQL自学笔记(1):什么是SQL?有什么用?
本文为用户研究新手介绍SQL(结构化查询语言),解释了SQL的基本概念、入门方法及在用户研究中的应用通过实际案例说明,如用户行为分析、用户细分和满意度调查数据分析,展示了SQL在用户研究中的重要作用。
4210 0
SQL自学笔记(1):什么是SQL?有什么用?
|
网络安全
IDEA 提交代码到 GitHub 时发生错误
摘要: 在遇到访问 GitHub 时的错误,这两个命令分别用于处理 SSL 连接问题和连接超时问题。
722 3

热门文章

最新文章