从 Image-to-LoRA 到 In-Context Edit

简介: 阿里发布Qwen-Image-Edit-2511-ICEdit-LoRA模型,通过上下文内编辑技术,利用“编辑前后图像对”实现图像编辑能力迁移。该模型仅需少量样本即可训练,支持风格、光照、表情等复杂编辑,并可拓展至图像分割等视觉任务,未来将持续优化与应用探索。

前段时间,我们发布了 Qwen-Image 的 Image-to-LoRA 模型(https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-i2L),它可以直接将图片数据转化为 LoRA 模型,从而生成相似的图像。

在发布这个模型之后,我们一直在思考能否将这样的能力赋予图像编辑模型。很遗憾,我们没能训练出图像编辑模型的 Image-to-LoRA 模型,但我们用上下文内编辑(In-Context Edit)技术路线实现了类似的功能,并发布了新的模型(https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-Edit-2511-ICEdit-LoRA)。本文将介绍我们我们如何为新发布的 Qwen-Image-Edit-2511 实现这样的功能。

图像编辑的 LoRA 模型能做什么?

从图像生成到图像编辑,LoRA 模型的作用发生了变化。在图像生成中,我们可以用 LoRA 控制生成图像的风格等,而在图像编辑中,LoRA 则通常被用于特定的“图到图转换”。


例如模型 dx8152/Qwen-Edit-2509-Light-Migration(https://modelscope.cn/models/dx8152/Qwen-Edit-2509-Light-Migration)可以为图像重新打光。


通常,这些 LoRA 实现的编辑能力是文本很难精确描述的,例如在上述例子中,光线从什么方向射入,光线的色调如何,光线有多明亮等,自然语言难以事无巨细地描述清楚图像编辑的每一个细节。但当我们给出“编辑前后的图像对”作为样例时,图像编辑的过程就变得一目了然。图像编辑的 LoRA 模型正是通过“编辑前后的图像对”训练出的,模型通过这样的训练数据理解图像编辑需求,并把这种“图到图转换”应用到新的图像上。

为什么无法实现图像编辑的 Image-to-LoRA 模型?

准确地说,图像编辑的 Image-to-LoRA 模型实际上是 Image-Pair-to-LoRA。例如在下面修改人物表情的例子中,我们的 Image-Pair-to-LoRA 模型需要输入第一行的两张图片,理解这一转换是“让人物开怀大笑”并输出一个 LoRA 模型。然后,我们将这一 LoRA 模型用于新的图像编辑,输入第三张图,让图中的老人也开怀大笑,输出第四张图。

编辑前

编辑后

编辑前


编辑后


如果我们用“编辑前后的图像对”来训练 Image-Pair-to-LoRA 模型,则会导致模型倾向于生成编辑后的图像,而不是关注两张图的变化。所以我们必须使用四张图的训练数据来训练模型,严苛的数据格式导致我们很难大规模地构造训练数据集,我们东拼西凑了一个包含 3 万个样本的数据集。这样匮乏的数据量让 Image-Pair-to-LoRA 模型变得不可能。


如何激活模型的上下文内编辑(In-Context Edit)?

既然 Image-Pair-to-LoRA 模型无法实现,我们考虑使用其他技术路线的研究成果实现类似的功能。注意到整个过程实际可以认为是一个多图输入的编辑过程,即输入给模型图1、图2、图3,模型把图1到图2的变化应用到图3,生成图4。而最近发布的 Qwen-Image-Edit-2511 模型恰好是一个多图编辑模型,我们可以直接利用模型的多图编辑能力实现这样的上下文内编辑(In-Context Edit)。上下文内编辑是我们一直在探索的另一项技术,此时与 Image-to-LoRA 的能力发生了交汇。


我们训练并开源了这样一个模型(https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-Edit-2511-ICEdit-LoRA),模型结构是普通的 LoRA,它可以激活 Qwen-Image-Edit-2511 的上下文内编辑能力。只需要给出图像编辑的样例,模型就可以自行理解并编辑新的图像。最重要的是,这样的模型结构由于继承了编辑模型自身的多图编辑能力,以较少的数据(3 万个样本)就可以训练完成。我们用另一种方式实现了与 Image-Pair-to-LoRA 模型类似的功能。

上下文内编辑能力有什么潜力?

2023年开始,以 GPT 为代表的一批大语言模型出现,大语言模型技术的飞速发展为“文本到文本”类任务带来了红利,彻底改变了自然语言理解领域的研究。如今,Qwen-Image-Edit 等模型已经在“图像到图像”类任务上取得了突破,这些图像编辑模型有望在计算机视觉的诸多任务中应用。


例如,我们的 In-Context Edit 模型可以用于图像分割。

这意味着图像编辑大模型真的可以直接用于计算机视觉的诸多任务,这是未来值得研究的问题。


下一步我们要做什么?

  • 这个模型的效果仍然有较大提升空间,我们在改进模型结构,未来将会发布改进后的模型,进一步发挥模型的上下文内编辑能力。
  • 模型的能力是一系列原子能力的组合,我们在继续构建更大的数据集,这一数据集将会在未来开源。
  • 这一模型能够让图像编辑模型用于诸多计算机视觉的任务,我们将在某些任务中验证其效果,未来会发布详细技术报告。


点击即可跳转模型链接:

https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-Edit-2511-ICEdit-LoRA

目录
相关文章
|
1月前
|
人工智能 数据可视化 物联网
《显卡 4090 就能跑!小白也能炼出私有大模型》
大模型微调是AI落地的关键技术,通过定向训练让通用模型在特定领域“从会到精”。本文详解微调原理、LoRA/QLoRA等高效方法,并提供评估与实操建议,助力新手快速上手,实现低成本、高精度的模型定制。
356 4
|
3月前
|
编解码 物联网 API
码上生花:用API链接Qwen-Image系列及衍生LoRA生态模型
Qwen-Image系列开源三月成爆款,凭借中文场景优势与ModelScope平台深度集成,支持文生图、图像编辑及LoRA生态API调用,助力开发者高效创作。
1268 1
|
29天前
|
编解码 物联网 测试技术
FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑
Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。
882 1
|
1月前
|
数据采集 人工智能 IDE
告别碎片化日志:一套方案采集所有主流 AI 编程工具
本文介绍了一套基于MCP架构的轻量化、多AI工具代码采集方案,支持CLI、IDE等多类工具,实现用户无感、可扩展的数据采集,已对接Aone日志平台,助力AI代码采纳率分析与研发效能提升。
431 46
告别碎片化日志:一套方案采集所有主流 AI 编程工具
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AgentCPM-Explore开源,4B 参数突破端侧智能体模型性能壁垒
清华、人大、面壁智能与OpenBMB联合推出4B参数智能体模型AgentCPM-Explore,在8大长程任务上实现同尺寸SOTA,性能比肩30B+大模型。支持百轮稳定交互、全流程开源,重塑端侧AI潜能。
298 7
AgentCPM-Explore开源,4B 参数突破端侧智能体模型性能壁垒
|
18天前
|
数据采集 编解码 自动驾驶
世界模型 LingBot-World,正式开源!
蚂蚁灵波团队开源世界模型LingBot-World,专为交互式仿真设计。其核心LingBot-World-Base具备高保真、强动态、长时序一致性(支持近10分钟稳定生成)和实时交互能力(≈16FPS,延迟<1秒),依托可扩展数据引擎,从游戏环境学习物理与因果规律,打造具身智能、自动驾驶等领域的“数字演练场”。
619 1
|
1月前
|
监控 搜索推荐 物联网
一文读懂LoRA微调原理:大模型高效适配的核心逻辑
通过冻结大模型参数、仅训练少量低秩矩阵,实现高效微调:成本低、周期短、不破坏通用能力。适配医疗、金融等垂直场景,支持多任务复用与边缘部署,成为大模型落地首选技术。
一文读懂LoRA微调原理:大模型高效适配的核心逻辑
|
4月前
|
测试技术
哪里不对改哪里!全能图像编辑模型Qwen-Image-Edit来啦
Qwen-Image-Edit基于20B Qwen-Image模型,融合视觉语义与外观控制,支持中英文文字精准编辑、风格迁移、IP创作等多重功能,具备SOTA性能,助力低门槛、高精度图像编辑。
2148 23
|
22天前
|
人工智能 自然语言处理 物联网
Qwen-Image 从推理到 LoRA 训练实战教程(AMD GPU × DiffSynth-Studio)
本课程由魔搭社区出品,详解如何在AMD GPU上基于DiffSynth-Studio框架高效部署、微调与训练Qwen-Image系列大模型(860亿参数)。涵盖文生图推理、LoRA画质增强、多语言提示理解、高一致性人像外延及多图融合编辑,并支持从零训练专属LoRA(如定制狗狗生成)。
564 40

热门文章

最新文章