Qwen-lmage-Layered:图片分层 指哪改哪

简介: Qwen-Image-Layered是全新图像生成模型,首创分层解耦架构,将图片自动拆解为多个RGBA图层,实现高保真编辑。支持独立修改颜色、位置、内容等,保持图层间互不干扰,确保编辑一致性。基于自研RGBA-VAE与VLD-MMDiT架构,支持可变层数、递归分解,赋予图像前所未有的可编辑性。#QwenImageLayered

image.png
我们很高兴推出全新图像生成模型Qwen-lmage-Layered,新模型采用自研创新架构,可将图片“拆解”成多个图层。这种分层表示赋予了图像内在的可编辑性:每个图层都可以独立操作,而不会影响其他内容。同时,这种分层结构天然支持高保真的基本编辑操作,例如缩放、移动和重新着色。通过将不同元素物理地隔离到不同的图层中,我们的方法实现了高保真的编辑效果。

Qwen-lmage-Layered

技术报告:
https://arxiv.org/abs/2512.15603
Github:
https://github.com/QwenLM/Qwen-Image-Layered
ModelScope:
https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered
Hugging Face:
https://huggingface.co/Qwen/Qwen-Image-Layered
Demo:
https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered

新思路:从像素预测到图片解耦

目前随着AI生成图片技术发展,AI图片编辑大致可分为两大方法:全局编辑和基于掩码的局部编辑。

全局编辑方法:通过对整张图像进行重新生成来实现整体性修改,然而,由于生成模型本身固有的随机性,这些方法无法确保未编辑区域的一致性。

掩码的局部编辑:通过将修改限制在指定的掩码范围内,从而有效保持全局一致性。尽管这种方法直观易懂,但它在处理遮挡和模糊边界时存在困难,难以精确界定实际的编辑区域。

我们提出了一种全新的思路:将图像分解为语义上解耦的RGBA图层,通过将图片自动“剥洋葱”,每一层都拥有独立的颜色(RGB)和透明度(Alpha)。每个图层均可独立修改而不会影响其他图层,从而从根本上确保各次编辑之间的一致性。

模型亮点

image.png

  • RGBA-VAE:传统的 VAE 只懂红绿蓝,我们研发了全新的 RGBA-VAE,让 RGB 图像和带透明度的 RGBA 图层在同一个潜空间内“对话” ,解决了图层之间分布不均、边界模糊的顽疾。

  • VLD-MMDiT:现实世界的图层数是不确定的。VLD-MMDiT 架构能够一次性处理 3 层、10 层甚至更多图层,且层与层之间通过注意力机制协同,不再需要低效的递归拆解 。

  • 多阶段进化:模型并非生而知之。它经历了从“生成单图”到“生成多层”,最后进化到“拆解任意 RGB 图像”的循序渐进过程,将强大的生成基因转化成了精准的理解力 。

分层分解的应⽤

给定⼀张图像,Qwen-Image-Layered 可将其分解为若⼲个 RGBA 图层:image.png
分解完成后,编辑操作仅作⽤于⽬标图层,将其与其他内容物理隔离,从根本上确保了编辑的⼀致性。

例如,我们可以对第⼀个图层重新着⾊,⽽保持其余内容不变:image.png
我们也可以将第⼆个图层中的⼥孩替换为男孩:image.png
在下⾯的例⼦中,我们将⽂字内容修改为 “Qwen-Image”image.png
此外,分层结构天然⽀持各种基本操作。例如,我们可以⼲净地删除不需要的物体:image.png
我们也可以轻松的对物体进⾏缩放⽽不引⼊形变和失真:image.png
在完成图层分解后,我们还能在画布内⾃由移动物体:image.png

灵活且可迭代的分解

Qwen-Image-Layered 并不限于固定的图层数量,模型⽀持可变数量的图层分解。例如,我们可以根据需要将同⼀张图像分解为 3 层或 8 层:
image.png
此外,分解过程还可以递归进⾏:任意⼀个图层本⾝都可以被进⼀步分解,从⽽实现⽆限层级的细化分解。image.png

结语

Qwen-Image-Layered 将静态图⽚转化为结构化的、可灵活编辑的多层结构。通过将图像重新构想为可组合的图层,我们希望提供直观、精准且鲁棒的编辑能⼒。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 前端开发
构建AI智能体:七十、小树成林,聚沙成塔:随机森林与大模型的协同进化
随机森林是一种基于决策树的集成学习算法,通过构建多棵决策树并结合它们的预测结果来提高准确性和稳定性。其核心思想包括两个随机性:Bootstrap采样(每棵树使用不同的训练子集)和特征随机选择(每棵树分裂时只考虑部分特征)。这种方法能有效处理大规模高维数据,避免过拟合,并评估特征重要性。随机森林的超参数如树的数量、最大深度等可通过网格搜索优化。该算法兼具强大预测能力和工程化优势,是机器学习中的常用基础模型。
507 165
|
30天前
|
人工智能 Rust 运维
这个神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
加我进AI讨论学习群,公众号右下角“联系方式”文末有老金的 开源知识库地址·全免费
3204 20
|
29天前
|
机器学习/深度学习 安全 API
MAI-UI 开源:通用 GUI 智能体基座登顶 SOTA!
MAI-UI是通义实验室推出的全尺寸GUI智能体基座模型,原生集成用户交互、MCP工具调用与端云协同能力。支持跨App操作、模糊语义理解与主动提问澄清,通过大规模在线强化学习实现复杂任务自动化,在出行、办公等高频场景中表现卓越,已登顶ScreenSpot-Pro、MobileWorld等多项SOTA评测。
2050 7
|
1月前
|
人工智能 安全 搜索推荐
钉钉发布全球首个工作智能操作系统Agent OS,专为AI打造
2025年12月23日,钉钉在杭州发布AI钉钉1.1“木兰”版本,推出全球首个为AI打造的工作智能操作系统——Agent OS,开启“人与AI协同”新范式。通过钉钉ONE、DingTalk Real、AI搜问、悟空Agent及DEAP平台等构建完整AI协作体系,实现AI直连物理世界。发布会推出超20款AI产品,涵盖制造、差旅、客服等场景,全面升级AI表格、AI听记、DingTalk A1,助力企业零门槛迈向AI原生办公。
606 10
|
3月前
|
测试技术
哪里不对改哪里!全能图像编辑模型Qwen-Image-Edit来啦
Qwen-Image-Edit基于20B Qwen-Image模型,融合视觉语义与外观控制,支持中英文文字精准编辑、风格迁移、IP创作等多重功能,具备SOTA性能,助力低门槛、高精度图像编辑。
1909 23
|
2月前
通义千问Qwen荣获“领先科技奖”
2025年11月6日,通义千问大模型荣膺世界互联网大会“领先科技奖”。凭借卓越性能与开源贡献,其已开源超300个模型,下载量超6亿次,衍生模型超17万,居全球首位。
716 153

热门文章

最新文章