CreatiLayout:复旦与字节联合推出布局到图像生成技术,支持高质量图像生成与布局优化

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: CreatiLayout 是复旦大学与字节跳动联合推出的创新布局到图像生成技术,通过大规模数据集和孪生多模态扩散变换器,实现高质量图像生成与布局优化。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术核心:基于孪生多模态扩散变换器,CreatiLayout 实现高质量图像生成与布局优化。
  2. 数据集支持:构建了包含 270 万图像-文本对和 1070 万实体标注的大规模布局数据集 LayoutSAM。
  3. 多模态交互:通过 SiamLayout 框架,布局信息与图像模态独立交互,解决模态竞争问题。

CreatiLayout 是什么

公众号: 蚝油菜花 - CreatiLayout

CreatiLayout 是复旦大学和字节跳动联合提出的创新布局到图像生成(Layout-to-Image, L2I)技术。该技术通过构建大规模的布局数据集 LayoutSAM,包含 270 万图像-文本对和 1070 万个实体标注,每个实体都详细描述了颜色、形状、纹理等属性。

CreatiLayout 的核心在于其 SiamLayout 框架,该框架将布局信息视为一种独立的模态,通过 MM-DiT 原生的 MM-Attention 实现布局与图像模态的交互,有效解决了模态竞争问题。此外,CreatiLayout 还引入了 LayoutDesigner,基于大语言模型帮助用户生成和优化布局,支持多种输入方式,如中心点、掩码、草图和文本描述等。

CreatiLayout 的主要功能

  • 高质量图像生成:基于孪生多模态扩散变换器(Siamese Multimodal Diffusion Transformer),CreatiLayout 能生成高质量和细粒度可控的图像,精确渲染复杂的属性,如颜色、纹理、形状等。
  • 布局生成与优化:通过 LayoutDesigner,CreatiLayout 可以根据用户的多种输入(如中心点、掩码、草图、文本描述等)生成和优化布局,使用户能更灵活地表达设计意图,生成和谐美观的布局。
  • 大规模数据集支持:CreatiLayout 构建了名为 LayoutSAM 的大规模布局数据集,包含 270 万图像-文本对和 1070 万个实体标注,为模型提供了丰富的数据支持。
  • 多模态交互:在模型架构上,CreatiLayout 将布局信息视为一种独立的模态,通过 MM-DiT 的 MM-Attention 实现布局与图像模态的交互。

CreatiLayout 的技术原理

  • 孪生多模态扩散变换器:CreatiLayout 基于这种变换器来实现高质量和细粒度可控的图像生成,能有效地处理多模态数据,包括图像、文本和布局信息。
  • SiamLayout 框架:该框架将布局信息视为一种独立的模态,并与文本和图像模态同等重要。通过 MM-DiT 原生的 MM-Attention 实现布局模态与图像模态的交互,缓解了模态竞争问题,增强了布局的指导作用。
  • LayoutDesigner:基于大型语言模型进行布局规划和优化,支持用户通过多种输入形式(如中心点、掩码、草图、文本描述等)生成和优化布局。

如何运行 CreatiLayout

1. 环境配置

首先,创建一个 Conda 环境并安装所需的依赖:

conda create -n creatilayout python=3.10 -y
conda activate creatilayout
conda install pytorch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt

2. 运行示例代码

你可以通过以下代码生成图像:

python test_sample.py

3. 在线体验

你也可以通过 Hugging Face 的在线 Demo 体验 CreatiLayout 的功能:
https://huggingface.co/spaces/HuiZhang0812/CreatiLayout

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
5月前
|
数据可视化 数据管理 vr&ar
|
8月前
|
机器学习/深度学习 存储 数据采集
智能光栅光片显微成像技术的LabVIEW解决方案
智能光栅光片显微成像技术的LabVIEW解决方案
54 4
|
8月前
|
传感器 机器学习/深度学习 编解码
卫星图像10个开源数据集资源汇总
卫星图像10个开源数据集资源汇总
211 0
|
编解码 区块链 图形学
CVPR 2023 | LED阵列+LCD面板=3072个投影仪:浙大-相芯联合团队实现复杂物体高质量数字化建模
CVPR 2023 | LED阵列+LCD面板=3072个投影仪:浙大-相芯联合团队实现复杂物体高质量数字化建模
110 0
|
编解码 定位技术 vr&ar
VR丝滑全景指日可待?谷歌这个360° NeRF让人看到未来(1)
VR丝滑全景指日可待?谷歌这个360° NeRF让人看到未来
178 0
|
vr&ar
VR丝滑全景指日可待?谷歌这个360° NeRF让人看到未来(2)
VR丝滑全景指日可待?谷歌这个360° NeRF让人看到未来
153 0
|
vr&ar
VR丝滑全景指日可待?谷歌这个360° NeRF让人看到未来
VR丝滑全景指日可待?谷歌这个360° NeRF让人看到未来
164 0
|
机器学习/深度学习 自然语言处理 算法
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
185 0
|
人工智能 算法 大数据
自建遥感AI模型 探索沙漠中的绿色怪圈
遥感大数据与人工智能深度融合的时代,利用遥感AI算法,一起寻找地球上有趣的地物。
|
机器学习/深度学习 自然语言处理 算法
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
189 0
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源

热门文章

最新文章