ART:匿名区域布局+多层透明图像生成技术,生成速度比全注意力方法快12倍以上

简介: ART 是一种新型的多层透明图像生成技术,支持根据全局文本提示和匿名区域布局生成多个独立的透明图层,具有高效的生成机制和强大的透明度处理能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎨 “设计师福音!微软联手清华北大推出ART:一键生成50+透明图层,AI助力高效创作”

大家好,我是蚝油菜花。你是否也遇到过——

  • 👉 设计复杂图像时,图层管理混乱,修改起来费时费力
  • 👉 想要快速生成透明背景的素材,却苦于工具限制
  • 👉 需要根据文本提示生成多层图像,但现有工具无法满足需求

今天要介绍的 ART(Anonymous Region Transformer),正是为解决这些问题而生!这款由微软联合清华、北大等顶尖机构推出的多层透明图像生成技术,能够根据全局文本提示和匿名区域布局,直接生成多个独立的透明图层(支持 RGBA 格式),图层可以单独编辑、组合或叠加。无论是设计师、艺术家,还是内容创作者,ART 都能为你带来前所未有的创作体验!

🚀 快速阅读

ART 是一种新型的多层透明图像生成技术,支持根据全局文本提示和匿名区域布局生成多个独立的透明图层。

  1. 核心功能:支持多层透明图像生成、匿名区域布局、高效生成机制和高质量自编码器。
  2. 技术原理:采用逐层区域裁剪机制和多层透明图像自编码器,显著提升了生成效率和质量。

ART 是什么

art-msra

ART(Anonymous Region Transformer)是一种新型的多层透明图像生成技术,能够根据全局文本提示和匿名区域布局直接生成多个独立的透明图层(支持 RGBA 格式)。这些图层可以单独编辑、组合或叠加,极大地提高了图像生成的灵活性和效率。

ART 的核心优势在于其高效的生成机制和强大的透明度处理能力。通过采用匿名区域布局,生成模型可以自主决定哪些视觉信息与文本对齐,提供了更大的灵活性。此外,ART 引入了逐层区域裁剪机制,显著降低了注意力计算成本,生成速度比全注意力方法快 12 倍以上。它还支持 50 层以上的多层图像生成,减少了图层之间的冲突。

ART 的主要功能

  • 多层透明图像生成:ART 能根据全局文本提示和匿名区域布局,直接生成多个独立的透明图层(支持 RGBA 格式),图层可以单独编辑、组合或叠加。
  • 匿名区域布局:设计灵感来源于“图式理论”,支持生成模型自主决定哪些视觉信息与文本信息对齐,提供了更大的灵活性。
  • 高效生成机制:引入逐层区域裁剪机制,只选择与每个匿名区域相关的视觉信息,显著降低了注意力计算成本,生成速度比全注意力方法快12倍以上。
  • 高质量自编码器:提出多层透明图像自编码器,支持直接编码和解码多层图像的透明度,进一步提升了生成质量和效率。
  • 减少图层冲突:能处理50层以上的多层图像生成,有效减少了图层之间的冲突。

ART 的技术原理

  • 逐层区域裁剪机制:ART 引入了逐层区域裁剪机制,仅选择与每个匿名区域相关的视觉信息进行处理。这种机制显著降低了注意力计算的成本,生成速度比全注意力方法快12倍以上,能处理多达50个以上的不同图层。
  • 多层透明图像自编码器:ART 提出了高质量的多层透明图像自编码器,能直接对多层图像的透明度进行编码和解码。通过将透明度信息嵌入RGB通道,ART 支持对多层透明图像的精确控制和可扩展生成。
  • 全局文本提示与交互性:用户只需提供全局文本提示和匿名区域布局,模型可根据上下文自主生成每个区域的内容。
  • 全局一致性与图层控制:ART 通过生成全局参考图像和背景图像,确保不同图层之间的视觉一致性,避免了传统方法中常见的图层冲突。用户可以通过修改全局提示或匿名区域布局动态调整生成的图像内容。

如何运行 ART

1. 创建 Conda 环境

conda create -n multilayer python=3.10 -y
conda activate multilayer

2. 安装依赖

pip3 install torch==2.4.0 torchvision==0.19.0
pip install diffusers==0.31.0 transformers==4.44.0 accelerate==0.34.2 peft==0.12.0 datasets==2.20.0
pip install wandb==0.17.7 einops==0.8.0 sentencepiece==0.2.0 mmengine==0.10.4 prodigyopt==1.0

3. 登录 Hugging Face

huggingface-cli login

4. 快速开始

使用 example.py 进行简单尝试:

python example.py

5. 测试多层图像生成

5.1 下载检查点

创建路径 multi_layer_gen/checkpoints 并下载以下检查点:

变量 描述 操作
ckpt_dir 匿名区域变换器检查点 Google Drive 下载
transp_vae_ckpt 多层透明度解码器检查点 Google Drive 下载
pre_fuse_lora_dir 初始融合的 LoRA 权重 Google Drive 下载
extra_lora_dir 可选的 LoRA 权重(用于美学改进) Google Drive 下载

5.2 运行测试脚本

python multi_layer_gen/test.py \
--cfg_path=multi_layer_gen/configs/multi_layer_resolution512_test.py \
--save_dir=multi_layer_gen/output/ \
--ckpt_dir=multi_layer_gen/checkpoints/anonymous_region_transformer_ckpt \
--transp_vae_ckpt=multi_layer_gen/checkpoints/transparent_decoder_ckpt.pt \
--pre_fuse_lora_dir=multi_layer_gen/checkpoints/pre_fuse_lora \
--extra_lora_dir=multi_layer_gen/checkpoints/extra_lora

5.3 使用 Notebook 示例

请查看 test.ipynb

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
开发框架 开发者 UED
Pygame的主要模块有哪些?
【6月更文挑战第11天】Pygame的主要模块有哪些?
357 5
|
索引 Python
Python骚操作,提取pdf文件中的表格数据!
Python骚操作,提取pdf文件中的表格数据!
6984 0
|
传感器 监控 安全
闭环反馈系统原理概述
有时,为了获得系统的一致性和稳定性并产生控制系统的期望输出,我们使用反馈回路。反馈只不过是输出信号的一部分。这个概念在控制系统中最常见和最重要,以实现输出的稳定性。根据反馈连接,控制系统分为两种类型。它们是开环控制系统和闭环控制系统。下面简单介绍下闭环反馈系统。
5044 0
闭环反馈系统原理概述
|
Linux iOS开发 MacOS
Matplotlib 教程 之 Matplotlib 中文显示 2
Matplotlib 中文显示教程:介绍如何在 Matplotlib 中显示中文,包括设置 Matplotlib 字体参数和下载支持中文的字体库。通过设置 `plt.rcParams['font.family']` 为系统中的中文字体(如 SimHei、WenQuanYi Micro Hei、Heiti TC),可以实现中文的正确显示。
565 0
|
机器学习/深度学习 传感器 算法
GEE好文推荐——利用样本点迁移方法快速实现全球范围内1984年至今基于Landsat影像的土地分类
GEE好文推荐——利用样本点迁移方法快速实现全球范围内1984年至今基于Landsat影像的土地分类
581 0
|
编解码
按照以下步骤对老照片进行修复
按照以下步骤对老照片进行修复
1099 1
|
监控 算法 安全
以unity3d为例解读:游戏数据加密
以unity3d为例解读:游戏数据加密
1156 1
以unity3d为例解读:游戏数据加密
|
新零售 人工智能 智能设计
阿里巴巴淘系开源大型3D家具数据集(3D-FUTURE)推动3D家居智能研究
阿里巴巴淘系技术部与英国伦敦大学伯贝克学院Steve Maybank教授、悉尼大学陶大程教授等国际知名学者合作,与3月30日正式开源业界首个饱含纹理细节的大型3D家具数据集(3D-FUTURE),共同推动3D家居智能研究。并面向全球3D几何与视觉研究爱好者同步启动第一届阿里巴巴3D人工智能挑战赛暨IJCA-PRICAI 2020 Workshop。
2563 0
阿里巴巴淘系开源大型3D家具数据集(3D-FUTURE)推动3D家居智能研究

热门文章

最新文章

下一篇
开通oss服务