CreatiLayout:复旦与字节联合推出布局到图像生成技术,支持高质量图像生成与布局优化

简介: CreatiLayout 是复旦大学与字节跳动联合推出的创新布局到图像生成技术,通过大规模数据集和孪生多模态扩散变换器,实现高质量图像生成与布局优化。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术核心:基于孪生多模态扩散变换器,CreatiLayout 实现高质量图像生成与布局优化。
  2. 数据集支持:构建了包含 270 万图像-文本对和 1070 万实体标注的大规模布局数据集 LayoutSAM。
  3. 多模态交互:通过 SiamLayout 框架,布局信息与图像模态独立交互,解决模态竞争问题。

CreatiLayout 是什么

公众号: 蚝油菜花 - CreatiLayout

CreatiLayout 是复旦大学和字节跳动联合提出的创新布局到图像生成(Layout-to-Image, L2I)技术。该技术通过构建大规模的布局数据集 LayoutSAM,包含 270 万图像-文本对和 1070 万个实体标注,每个实体都详细描述了颜色、形状、纹理等属性。

CreatiLayout 的核心在于其 SiamLayout 框架,该框架将布局信息视为一种独立的模态,通过 MM-DiT 原生的 MM-Attention 实现布局与图像模态的交互,有效解决了模态竞争问题。此外,CreatiLayout 还引入了 LayoutDesigner,基于大语言模型帮助用户生成和优化布局,支持多种输入方式,如中心点、掩码、草图和文本描述等。

CreatiLayout 的主要功能

  • 高质量图像生成:基于孪生多模态扩散变换器(Siamese Multimodal Diffusion Transformer),CreatiLayout 能生成高质量和细粒度可控的图像,精确渲染复杂的属性,如颜色、纹理、形状等。
  • 布局生成与优化:通过 LayoutDesigner,CreatiLayout 可以根据用户的多种输入(如中心点、掩码、草图、文本描述等)生成和优化布局,使用户能更灵活地表达设计意图,生成和谐美观的布局。
  • 大规模数据集支持:CreatiLayout 构建了名为 LayoutSAM 的大规模布局数据集,包含 270 万图像-文本对和 1070 万个实体标注,为模型提供了丰富的数据支持。
  • 多模态交互:在模型架构上,CreatiLayout 将布局信息视为一种独立的模态,通过 MM-DiT 的 MM-Attention 实现布局与图像模态的交互。

CreatiLayout 的技术原理

  • 孪生多模态扩散变换器:CreatiLayout 基于这种变换器来实现高质量和细粒度可控的图像生成,能有效地处理多模态数据,包括图像、文本和布局信息。
  • SiamLayout 框架:该框架将布局信息视为一种独立的模态,并与文本和图像模态同等重要。通过 MM-DiT 原生的 MM-Attention 实现布局模态与图像模态的交互,缓解了模态竞争问题,增强了布局的指导作用。
  • LayoutDesigner:基于大型语言模型进行布局规划和优化,支持用户通过多种输入形式(如中心点、掩码、草图、文本描述等)生成和优化布局。

如何运行 CreatiLayout

1. 环境配置

首先,创建一个 Conda 环境并安装所需的依赖:

conda create -n creatilayout python=3.10 -y
conda activate creatilayout
conda install pytorch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt

2. 运行示例代码

你可以通过以下代码生成图像:

python test_sample.py

3. 在线体验

你也可以通过 Hugging Face 的在线 Demo 体验 CreatiLayout 的功能:
https://huggingface.co/spaces/HuiZhang0812/CreatiLayout

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
Linux Shell 应用服务中间件
Docker常用命令大全(万字详解)
Docker常用命令大全(万字详解)
993 0
|
数据采集 编解码 Java
解锁Hutool魔法箱:Java开发者不可错过的神奇工具集
解锁Hutool魔法箱:Java开发者不可错过的神奇工具集
757 0
|
机器学习/深度学习 人工智能 自然语言处理
AI 绘画Stable Diffusion 研究(七) 一文读懂 Stable Diffusion 工作原理(2)
AI 绘画Stable Diffusion 研究(七) 一文读懂 Stable Diffusion 工作原理
1083 0
|
7月前
|
机器学习/深度学习 人工智能 安全
AI 真会编程还是只会“背题” | Code Bench 专场直播带你洞悉代码能力的真实象限
AI 编程助手已成为开发者不可或缺的伙伴,但一个核心问题也随之而来:我们该如何衡量它们真正的代码实力?现有 Benchmark(基准测试)正面临严峻挑战——数据污染、测试用例不足等问题频出,导致模型排
326 2
|
12月前
|
机器学习/深度学习 人工智能 安全
云工开物合作动态丨2025西安交通大学 -阿里云课程(第一批)上线
2025年春季学期,西安交通大学联合阿里云推出九门特色课程,涵盖工程、法律、生命科学、经济管理等领域。这些课程打破传统学科壁垒,提供AI实践工具、动手实验资源及专属算力支持,帮助学生在理论学习之余进行实际操作,提升能力。结课后还将颁发阿里云创作者证书,助力学生成长为跨领域复合型人才。无论专业背景如何,都能找到适合自己的AI进化路径。机会难得,不容错过!
|
安全 Linux 文件存储
在Linux中,服务器开不了机怎么解决⼀步步的排查?
在Linux中,服务器开不了机怎么解决⼀步步的排查?
|
数据采集 人工智能 自然语言处理
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
【8月更文挑战第17天】在人工智能领域,具身智能正成为研究焦点。它强调智能体在现实世界中的感知与交互。近期,鹏城实验室与中山大学联合发布的首篇全球具身智能综述,调研近400篇文献,总结了该领域的理论和技术进展。文章探讨了具身感知、交互及仿真到现实的适应性等关键议题,并指出了面临的挑战如数据质量、模型泛化等,为通向通用人工智能铺路。论文已发表于IEEE会议记录中。
710 60
|
安全 网络安全 量子技术
探索未来网络安全的关键:量子加密技术
本文深入探讨了量子加密技术,一项被视为未来网络安全领域的重要突破。通过详细分析量子加密的工作原理、优势以及当前面临的挑战和潜在解决方案,文章为读者提供了对这一前沿技术的全面理解。我们将探讨如何将量子加密技术与现有网络安全架构融合,以及它在未来数字世界中的潜在应用。
933 2
|
网络安全
IDEA 提交代码到 GitHub 时发生错误
摘要: 在遇到访问 GitHub 时的错误,这两个命令分别用于处理 SSL 连接问题和连接超时问题。
474 3
|
存储 运维 安全
企业数据存储与备份解决方案
基于阿里云提供的存储与灾备平台,提供数据备份、数据容灾保护以及策略化归档管理,满足客户的数据合规性要求和多种数据源的快速备份恢复需求,保障业务连续性,节省企业运维成本,消除企业后顾之忧。
353 2

热门文章

最新文章