Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 通义千问团队开源Qwen-Image-Edit,基于20B模型,支持语义与外观双重编辑、精准中英文文字修改,具备SOTA图像编辑能力,可用于IP创作、风格迁移、文字修复等。

今天,通义千问团队开源发布了 Qwen-Image-Edit,Qwen-Image的图像编辑版本!

模型链接

Qwen-Image-Edit基于20B的Qwen-Image模型进一步训练,成功将Qwen-Image的文本渲染特色能力拓展到编辑任务上,以支持精准的文字编辑。此外,Qwen-Image-Edit将输入图像同时输入到Qwen2.5-VL(获取视觉语义控制)和VAE Encoder(获得视觉外观控制),以同时获得语义/外观双重编辑能力。

主要特性包括:

  • 语义/外观 双重编辑: Qwen-Image-Edit不仅支持low-level的视觉外观编辑(例如增删改等,需要保持图片部分区域完全不变),也支持high-level的视觉语义编辑(例如IP制作,物体旋转,风格迁移等,整体像素值可以变化,但需要保持语义不变)
  • 精准文字编辑: Qwen-Image-Edit支持中英双语文字编辑,可以在保留文字大小/字体/风格的前提下,直接编辑图片中文字,进行增删改。
  • 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image-Edit 在编辑任务中均获得SOTA,是一个强大的图像生成基础模型。

01示例效果

Qwen-Image-Edit的突出能力之一是能够语义/外观双重编辑。其中,语义编辑指的是,要保持原有图像的视觉语义不变的情况下,进行图像编辑,比如从Qwen的吉祥物——卡皮巴拉开始:

0.jpg

Image Editing in IP Creation(原创IP编辑)

可以看到,虽然编辑后的图像每个像素值和输入图像(最左边的图)都不一样,但是依然保持了卡皮巴拉角色的一致性。Qwen-Image的这种语义编辑能力使其能够轻松的进行原创IP编辑。再比如,通过一系列prompt进行了拓展,完成了MBTI整个表情包的制作:

640.jpg

Image Editing in IP Creation

(原创IP编辑之MBTI)

此外,视角转换也是语义编辑的重要场景。在下面两页图中,可以看到Qwen-Image-Edit不仅可以简单旋转物体(90度),甚至可以旋转180度,直接看到物体的背面:

640 (1).jpg

640 (2).jpg

Image Editing in Novel View Synthesis

(视角转换)

语义编辑的另一个例子是风格迁移。比如输入一张人物头像,Qwen-Image-Edit能够轻松的转换为吉卜力等多种风格,这在制作虚拟形象,人物ID上面非常有用:

640 (3).jpg

Image Editing in Avatar Creator(虚拟形象生成)

除了语义编辑之外,外观编辑是另一类编辑需求。外观编辑指的是在编辑过程中要保持部分区域完全不变。比如一个常见的外观编辑是增删改。下面展示了在图片中增加指示牌。可以看到,Qwen-Image-Edit不仅仅增加了指示牌,而且增加了对应的倒影。


640 (4).jpg

Image Editing in Object Add(AI新增)

下面也是一个有趣的例子,展示了在图片中删除头发丝。


640 (5).jpg

Image Editing in Object Removal(AI消除)

  • 下面展示了如何去修改图像中字幕的颜色。把n的颜色修改为蓝色。


640 (6).jpg

Image Editing in Replace(AI重绘)

  • 外观编辑在人物姿势修改、背景修改、服装修改中也有很重要的应用,下面三张图分别展示了这些场景


640 (7).jpg

Image Editing in Portrait Modification
(人像P图)


640 (8).jpg

Image Editing in Background Swap(虚拟场景)

640 (9).jpg

Image Editing in Virtual Try-On(穿搭模拟)

Qwen-Image-Edit的第二个特色在于,能够进行准确的文字编辑,这得益于Qwen-Image本身在文字渲染上的强大能力。比如,下面两个例子展示了Qwen-Image-Edit在英文文字编辑上的能力:


640 (10).jpg

640 (11).jpg

Image Editing in Text Editing(文字设计)

Qwen-Image-Edit也可以直接对中文海报进行编辑,不仅可以更改海报中的大字,小字也可以编辑。


640 (12).jpg

Image Editing in Poster Editing(海报编辑)

最后,来看一个具体的图像编辑例子,展示如何通过链式编辑来修改Qwen-Image生成错误的一幅书法作品:

640 (13).jpg

这幅图中有不少字是生成错误的,可以通过Qwen-Image-Edit来逐步修复它。比如,可以直接在原图中增加方框,要求Qwen-Image-Edit来改对这些部分。这里,希望红框位置能够写对“稽”,蓝色部分能写对“亭”。

640 (14).jpg

Image Editing in Repairing T2I Text

(定点文字修复)

不过事与愿违。“稽”字比较生僻,模型无法直接完成修改,“稽”右下角应该是“旨”,而不是“日”。可以进一步用红色框框住“日”,让Qwen-Image-Edit微调具体的部分,改成“旨”

640 (15).jpg

Image Editing in Repairing T2I Text

(定点文字修复)

神奇吧?按照这种思路,可以逐步地进行错字修改,直到完成最终版本

640 (16).jpg

640 (17).jpg

640 (18).jpg

640 (19).jpg

Image Editing in Repairing T2I Text

(定点文字修复)

640 (20).jpg

最终,我们获得了完全正确的,兰亭集序的书法版本!还顺手装裱了一把( •̀ ω •́ )✧

02模型推理

环境依赖

pip install git+https://github.com/huggingface/diffusers


推理代码,说明如何使用模型根据文本提示和参考图片生成图像

import os
from PIL import Image
import torch
from diffusers import QwenImageEditPipeline
pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
print("pipeline loaded")
pipeline.to(torch.bfloat16)
pipeline.to("cuda")
pipeline.set_progress_bar_config(disable=None)
image = Image.open("./input.png").convert("RGB")
prompt = "Change the rabbit's color to purple, with a flash light background."
inputs = {
    "image": image,
    "prompt": prompt,
    "generator": torch.manual_seed(0),
    "true_cfg_scale": 4.0,
    "negative_prompt": " ",
    "num_inference_steps": 50,
}
with torch.inference_mode():
    output = pipeline(**inputs)
    output_image = output.images[0]
    output_image.save("output_image_edit.png")
    print("image saved at", os.path.abspath("output_image_edit.png"))


03模型微调


推荐使用DiffSynth-Studio进行微调

环境依赖:


git clone https://github.com/modelscope/DiffSynth-Studio.git  
cd DiffSynth-Studio
pip install -e .


示例数据集下载:

modelscope download --dataset DiffSynth-Studio/example_image_dataset --local_dir ./data/example_image_dataset


想要微调图像编辑模型,需要准备编辑图像对和输入prompt,示例数据集metadata_edit.csv如下:

image,prompt,edit_image
edit/image2.jpg,"将裙子改为粉色",edit/image1.jpg


待编辑图像    ----    目标图像

LoRA模型微调脚本:

accelerate launch examples/qwen_image/model_training/train.py \
  --dataset_base_path data/example_image_dataset \
  --dataset_metadata_path data/example_image_dataset/metadata_edit.csv \
  --data_file_keys "image,edit_image" \
  --extra_inputs "edit_image" \
  --max_pixels 1048576 \
  --dataset_repeat 50 \
  --model_id_with_origin_paths "Qwen/Qwen-Image-Edit:transformer/diffusion_pytorch_model*.safetensors,Qwen/Qwen-Image:text_encoder/model*.safetensors,Qwen/Qwen-Image:vae/diffusion_pytorch_model.safetensors" \
  --learning_rate 1e-4 \
  --num_epochs 5 \
  --remove_prefix_in_ckpt "pipe.dit." \
  --output_path "./models/train/Qwen-Image-Edit_lora" \
  --lora_base_model "dit" \
  --lora_target_modules "to_q,to_k,to_v,add_q_proj,add_k_proj,add_v_proj,to_out.0,to_add_out,img_mlp.net.2,img_mod.1,txt_mlp.net.2,txt_mod.1" \
  --lora_rank 32 \
  --use_gradient_checkpointing \
  --dataset_num_workers 8 \
  --find_unused_parameters


相关文章
|
2月前
|
测试技术
哪里不对改哪里!全能图像编辑模型Qwen-Image-Edit来啦
Qwen-Image-Edit基于20B Qwen-Image模型,融合视觉语义与外观控制,支持中英文文字精准编辑、风格迁移、IP创作等多重功能,具备SOTA性能,助力低门槛、高精度图像编辑。
1050 23
|
24天前
|
自然语言处理 语音技术 Apache
阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX
阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX,支持零样本TTS、多语言方言及情感、风格、副语言特征精准控制,采用统一LLM框架,实现文本驱动音频创作。
477 88
|
17天前
|
编解码 物联网 API
码上生花:用API链接Qwen-Image系列及衍生LoRA生态模型
Qwen-Image系列开源三月成爆款,凭借中文场景优势与ModelScope平台深度集成,支持文生图、图像编辑及LoRA生态API调用,助力开发者高效创作。
437 1
|
16天前
|
人工智能 文字识别 物联网
ModelScope魔搭社区发布月报 -- 25年11月
魔搭ModelScope三周年庆!见证开源大模型从追赶到领跑,11月硬核更新不断:Qwen3-VL、MiniMax-M2等新模态齐发,AIGC生态爆发,OCR、语音、Agent全面进化。11月22日杭州AI开源生态大会,不见不散!
283 4
|
23天前
刚刚参加了一个MCP赛事,奖金还可以,搭友们可以去试试看
社区8月比赛未获奖有点失落,但发现通义灵码×蚂蚁百宝箱MCP赛事正火热进行!参赛即有机会赢取丰厚奖金,激励满满,令人眼前一亮。已跃跃欲试,搭友们快来一起冲榜夺奖吧!https://tianchi.aliyun.com/competition/entrance/532442
|
2月前
|
编解码 调度 图形学
腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区
混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。
294 1
|
3月前
|
编解码 文字识别 自然语言处理
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
334 14
|
21天前
|
编解码 人工智能 文字识别
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
DeepSeek-OCR开源即获7k+星,首创“上下文光学压缩”技术,仅用100视觉token超越传统OCR模型256token性能,压缩比达10-20倍,精度仍超97%。30亿参数实现单卡日处理20万页,显著降低大模型长文本输入成本,重新定义高效文档理解新范式。
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
|
21天前
|
搜索推荐 API Python
DeepSeek-V3.1 发布,迈向 Agent 时代的第一步
今日发布DeepSeek-V3.1,支持混合推理架构,提升思考效率与Agent能力。编程与搜索智能体表现显著增强,API已升级并支持Anthropic格式,模型开源,上下文扩展至128K。
509 5
|
18天前
|
数据采集 文字识别 算法
腾讯混元&清华开源15M高质量多模态训练数据,全面开放MLLM迎来质变时刻
腾讯混元与清华推出Bee项目,首创“以数据为中心”的全栈开源方案,通过Honey-Data-15M高质量数据集、HoneyPipe数据增强管线及Bee-8B模型,显著提升全开源多模态大模型性能,缩小与闭源模型差距。
255 4

热门文章

最新文章