ART:匿名区域布局+多层透明图像生成技术,生成速度比全注意力方法快12倍以上

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: ART 是一种新型的多层透明图像生成技术,支持根据全局文本提示和匿名区域布局生成多个独立的透明图层,具有高效的生成机制和强大的透明度处理能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎨 “设计师福音!微软联手清华北大推出ART:一键生成50+透明图层,AI助力高效创作”

大家好,我是蚝油菜花。你是否也遇到过——

  • 👉 设计复杂图像时,图层管理混乱,修改起来费时费力
  • 👉 想要快速生成透明背景的素材,却苦于工具限制
  • 👉 需要根据文本提示生成多层图像,但现有工具无法满足需求

今天要介绍的 ART(Anonymous Region Transformer),正是为解决这些问题而生!这款由微软联合清华、北大等顶尖机构推出的多层透明图像生成技术,能够根据全局文本提示和匿名区域布局,直接生成多个独立的透明图层(支持 RGBA 格式),图层可以单独编辑、组合或叠加。无论是设计师、艺术家,还是内容创作者,ART 都能为你带来前所未有的创作体验!

🚀 快速阅读

ART 是一种新型的多层透明图像生成技术,支持根据全局文本提示和匿名区域布局生成多个独立的透明图层。

  1. 核心功能:支持多层透明图像生成、匿名区域布局、高效生成机制和高质量自编码器。
  2. 技术原理:采用逐层区域裁剪机制和多层透明图像自编码器,显著提升了生成效率和质量。

ART 是什么

art-msra

ART(Anonymous Region Transformer)是一种新型的多层透明图像生成技术,能够根据全局文本提示和匿名区域布局直接生成多个独立的透明图层(支持 RGBA 格式)。这些图层可以单独编辑、组合或叠加,极大地提高了图像生成的灵活性和效率。

ART 的核心优势在于其高效的生成机制和强大的透明度处理能力。通过采用匿名区域布局,生成模型可以自主决定哪些视觉信息与文本对齐,提供了更大的灵活性。此外,ART 引入了逐层区域裁剪机制,显著降低了注意力计算成本,生成速度比全注意力方法快 12 倍以上。它还支持 50 层以上的多层图像生成,减少了图层之间的冲突。

ART 的主要功能

  • 多层透明图像生成:ART 能根据全局文本提示和匿名区域布局,直接生成多个独立的透明图层(支持 RGBA 格式),图层可以单独编辑、组合或叠加。
  • 匿名区域布局:设计灵感来源于“图式理论”,支持生成模型自主决定哪些视觉信息与文本信息对齐,提供了更大的灵活性。
  • 高效生成机制:引入逐层区域裁剪机制,只选择与每个匿名区域相关的视觉信息,显著降低了注意力计算成本,生成速度比全注意力方法快12倍以上。
  • 高质量自编码器:提出多层透明图像自编码器,支持直接编码和解码多层图像的透明度,进一步提升了生成质量和效率。
  • 减少图层冲突:能处理50层以上的多层图像生成,有效减少了图层之间的冲突。

ART 的技术原理

  • 逐层区域裁剪机制:ART 引入了逐层区域裁剪机制,仅选择与每个匿名区域相关的视觉信息进行处理。这种机制显著降低了注意力计算的成本,生成速度比全注意力方法快12倍以上,能处理多达50个以上的不同图层。
  • 多层透明图像自编码器:ART 提出了高质量的多层透明图像自编码器,能直接对多层图像的透明度进行编码和解码。通过将透明度信息嵌入RGB通道,ART 支持对多层透明图像的精确控制和可扩展生成。
  • 全局文本提示与交互性:用户只需提供全局文本提示和匿名区域布局,模型可根据上下文自主生成每个区域的内容。
  • 全局一致性与图层控制:ART 通过生成全局参考图像和背景图像,确保不同图层之间的视觉一致性,避免了传统方法中常见的图层冲突。用户可以通过修改全局提示或匿名区域布局动态调整生成的图像内容。

如何运行 ART

1. 创建 Conda 环境

conda create -n multilayer python=3.10 -y
conda activate multilayer
AI 代码解读

2. 安装依赖

pip3 install torch==2.4.0 torchvision==0.19.0
pip install diffusers==0.31.0 transformers==4.44.0 accelerate==0.34.2 peft==0.12.0 datasets==2.20.0
pip install wandb==0.17.7 einops==0.8.0 sentencepiece==0.2.0 mmengine==0.10.4 prodigyopt==1.0
AI 代码解读

3. 登录 Hugging Face

huggingface-cli login
AI 代码解读

4. 快速开始

使用 example.py 进行简单尝试:

python example.py
AI 代码解读

5. 测试多层图像生成

5.1 下载检查点

创建路径 multi_layer_gen/checkpoints 并下载以下检查点:

变量 描述 操作
ckpt_dir 匿名区域变换器检查点 Google Drive 下载
transp_vae_ckpt 多层透明度解码器检查点 Google Drive 下载
pre_fuse_lora_dir 初始融合的 LoRA 权重 Google Drive 下载
extra_lora_dir 可选的 LoRA 权重(用于美学改进) Google Drive 下载

5.2 运行测试脚本

python multi_layer_gen/test.py \
--cfg_path=multi_layer_gen/configs/multi_layer_resolution512_test.py \
--save_dir=multi_layer_gen/output/ \
--ckpt_dir=multi_layer_gen/checkpoints/anonymous_region_transformer_ckpt \
--transp_vae_ckpt=multi_layer_gen/checkpoints/transparent_decoder_ckpt.pt \
--pre_fuse_lora_dir=multi_layer_gen/checkpoints/pre_fuse_lora \
--extra_lora_dir=multi_layer_gen/checkpoints/extra_lora
AI 代码解读

5.3 使用 Notebook 示例

请查看 test.ipynb

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

目录
打赏
0
6
8
1
403
分享
相关文章
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
MagicColor是香港科技大学推出的多实例线稿着色框架,基于扩散模型和自监督训练策略,实现单次前向传播完成多实例精准着色,大幅提升动画制作和数字艺术创作效率。
411 20
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
DreamActor-M1:字节跳动推出AI动画黑科技,静态照片秒变生动视频
DreamActor-M1是字节跳动研发的AI图像动画框架,通过混合引导机制实现高保真人物动画生成,支持多语言语音驱动和形状自适应功能。
558 40
DreamActor-M1:字节跳动推出AI动画黑科技,静态照片秒变生动视频
Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公
Cua是一个结合高性能虚拟化与AI代理能力的开源框架,能在Apple Silicon上以接近原生性能运行虚拟机,并让AI直接操作系统应用。
460 17
Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公
阿里通义开源推理模型新王者!QwQ-32B:性能直逼671B的DeepSeek-R1
QwQ-32B 是阿里巴巴开源的新型推理模型,基于强化学习训练,具备强大的数学推理和编程能力,性能媲美更大参数量的模型。
683 8
阿里通义开源推理模型新王者!QwQ-32B:性能直逼671B的DeepSeek-R1
自研Java框架 Sunrays-Framework使用教程「博客之星」
### Sunrays-Framework:助力高效开发的Java微服务框架 **Sunrays-Framework** 是一款基于 Spring Boot 构建的高效微服务开发框架,深度融合了 Spring Cloud 生态中的核心技术组件。它旨在简化数据访问、缓存管理、消息队列、文件存储等常见开发任务,帮助开发者快速构建高质量的企业级应用。 #### 核心功能 - **MyBatis-Plus**:简化数据访问层开发,提供强大的 CRUD 操作和分页功能。 - **Redis**:实现高性能缓存和分布式锁,提升系统响应速度。 - **RabbitMQ**:可靠的消息队列支持,适用于异步
自研Java框架 Sunrays-Framework使用教程「博客之星」
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务,能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。
442 11
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
ENEL是由上海AI Lab推出的无编码器3D大型多模态模型,能够在多个3D任务中实现高效语义编码和几何结构理解,如3D对象分类、字幕生成和视觉问答。
187 9
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
Sa2VA:别再用PS抠图了!字节跳动开源Sa2VA:一句话自动分割视频,连头发丝都精准
Sa2VA 是由字节跳动等机构联合推出的多模态大语言模型,结合 SAM2 和 LLaVA 实现对图像和视频的精确分割和对话功能。
372 15
Sa2VA:别再用PS抠图了!字节跳动开源Sa2VA:一句话自动分割视频,连头发丝都精准
2025国内有哪些呼叫中心系统值得推荐?
在数字化浪潮推动下,呼叫中心系统已成为企业客户服务的核心枢纽。通过全面智能化、多渠道融合、大数据与AI驱动的决策支持及云化与安全性等技术优势,呼叫中心系统实现了降本增效和客户体验提升。2025年,随着人工智能和云计算的深度渗透,呼叫中心将迎来新一轮升级。推荐几款高效系统:合力亿捷、中国移动、华为云、阿里云和百度语音解决方案,涵盖电商、金融、政府等多个领域,助力企业优化服务流程,提升竞争力。
431 13
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
MiniMind 是一个开源的超小型语言模型项目,帮助开发者以极低成本从零开始训练自己的语言模型,最小版本仅需25.8M参数,适合在普通个人GPU上快速训练。
1038 10
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问