哪里不对改哪里!全能图像编辑模型Qwen-Image-Edit来啦

简介: Qwen-Image-Edit基于20B Qwen-Image模型,融合视觉语义与外观控制,支持中英文文字精准编辑、风格迁移、IP创作等多重功能,具备SOTA性能,助力低门槛、高精度图像编辑。

我们很⾼兴推出 Qwen-Image-Edit,Qwen-Image的图像编辑版本。Qwen-Image-Edit基于我们20B的Qwen-Image模型进⼀步训练,成功将Qwen-Image的独特的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。此外,Qwen-Image-Edit将输⼊图像同时输⼊到Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能⼒。如需体验最新模型,欢迎访问 Qwen Chat (chat.qwen.ai)并选择“图像编辑”功能。


640 (3).png

Qwen-Image-Edit的主要特性包括:

  • 语义与外观双重编辑: Qwen-Image-Edit不仅⽀持low-level的视觉外观编辑(如元素的添加、删除、修改等,要求图片其他区域完全不变),也支持 high-level 的视觉语义编辑(如 IP 创作、物体旋转、风格迁移等,允许整体像素变化但保持语义一致)。
  • 精准⽂字编辑: Qwen-Image-Edit 支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作。
  • 强⼤的基准性能: 在多个公开基准测试中的评估表明,Qwen-Image-Edit 在图像编辑任务上具备SOTA性能,是一个强大的图像编辑基础模型。

地址:

ModelScope

Hugging Face

GitHub

示例展示

Qwen-Image-Edit的一大亮点在于其强大的语义与外观双重编辑能力。所谓语义编辑,是指在保持原始图像视觉语义不变的前提下,对图像内容进行修改。

原创IP编辑

我们以Qwen的吉祥物——卡皮巴拉为例,来直观展示这一能力:

640.jpg

可以看到,虽然编辑后的图像大多数像素与输入图像(最左侧的图)都不一样,但依然完美地保持了卡皮巴拉的角色一致性。Qwen-Image的强大的语义编辑能力使其能够轻松地进行原创IP的多样化创作。

更进一步的,我们在Qwen Chat上围绕MBTI十六型人格,设计了一系列编辑prompt,成功地基于吉祥物卡皮巴拉,完成了MBTI表情包的制作,轻松地拓展了IP。

640 (1).jpg

视角转换

此外,视角转换同样是语义编辑中的一个重要应用场景。如下方两张示例图所示,Qwen-Image-Edit不仅能够实现物体的90度旋转,还可以完成180度旋转,让我们直接看到物体的背面:

640 (2).jpg 640 (3).jpg

风格迁移

语义编辑的另一个典型应用是风格迁移。例如,输入一张人物头像,Qwen-Image-Edit可以轻松将其转换为吉卜力等多种风格,这在虚拟形象创作等场景中极具价值:


640 (4).jpg

新增、消除、重绘

除了语义编辑,外观编辑也是常见的图像编辑需求。外观编辑强调在编辑过程中保持图像的部分区域完全不变,实现元素的增、删、改。下图展示了在图片中添加指示牌的案例,可以看到Qwen-Image-Edit不仅成功添加了指示牌,还生成了相应的倒影,细节处理十分到位。

640 (5).jpg

下方是另一个有趣的例子,展示了如何在图片中删除细小的头发丝等微小物体。

640 (6).jpg

此外,还可以对图像中指定的字母“n”进行颜色修改,将其变为蓝色,实现对特定元素的修改。

640 (7).jpg

⼈物背景调整、服装修改

外观编辑在人物背景调整、服装更换等场景中同样有着广泛的应用,下面三张图片分别展示了这些实际应用场景。


640 (8).jpg

640 (9).jpg

英文文字编辑

Qwen-Image-Edit的另一大亮点在于其准确的的文字编辑能力,这得益于Qwen-Image在文字渲染方面的深厚积累。如下所示,以下两个案例直观展示了Qwen-Image-Edit在英文文字编辑上的强大表现:

640 (10).jpg

640 (11).jpg

中文海报编辑

Qwen-Image-Edit同样能够直接对中文海报进行编辑,不仅可以修改海报中的大字,连细小的文字也能精准调整。

640 (12).jpg

链式编辑

最后,让我们通过一个具体的图像编辑案例,演示如何利用链式编辑的方式,逐步修正Qwen-Image生成的书法作品中的错误:

640 (13).jpg

在这幅作品中,有不少汉字存在生成错误。我们可以借助Qwen-Image-Edit,逐步修复它们。例如,可以在原图中用方框标注出需要修改的区域,指示Qwen-Image-Edit针对这些部分进行修正。这里,我们希望红框内正确地写出“稽”字,蓝色区域正确地写出“亭”字。

640 (14).jpg

但实际操作中,“稽”字较为生僻,模型未能一次性完成修改。“稽”的右下角应为“旨”而非“日”。此时,我们可以进一步用红框圈出“日”的部分,让Qwen-Image-Edit对该细节进行微调,将其改为“旨”。

640 (15).jpg

是不是很神奇?通过这种链式、逐步的编辑方式,我们可以持续修正错字,直至获得理想的最终效果。

640 (16).jpg

640 (17).jpg

640 (18).jpg

640 (19).jpg

640 (20).jpg

最终,我们成功获得了完全正确的兰亭集序书法版本!

未来展望

综上,我们希望Qwen-Image-Edit能够进一步推动在图像生成领域的发展,真正降低视觉内容创作的技术门槛,激发更多创新应用的可能。

相关文章
|
4月前
|
人工智能 物联网 测试技术
Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效
通义千问团队开源Qwen-Image-Edit,基于20B模型,支持语义与外观双重编辑、精准中英文文字修改,具备SOTA图像编辑能力,可用于IP创作、风格迁移、文字修复等。
3786 6
|
2月前
|
自然语言处理 物联网 计算机视觉
从 Image-to-LoRA 到 In-Context Edit
阿里发布Qwen-Image-Edit-2511-ICEdit-LoRA模型,通过上下文内编辑技术,利用“编辑前后图像对”实现图像编辑能力迁移。该模型仅需少量样本即可训练,支持风格、光照、表情等复杂编辑,并可拓展至图像分割等视觉任务,未来将持续优化与应用探索。
468 6
|
5月前
|
SQL 人工智能 运维
一场由AI拯救的数据重构之战
本文以数据研发工程师小D的日常困境为切入点,探讨如何借助AI技术提升数据研发效率。通过构建“数研小助手”智能Agent,覆盖需求评估、模型评审、代码开发、运维排查等全链路环节,结合大模型能力与内部工具(如图治MCP、D2 API),实现影响分析、规范检查、代码优化与问题定位的自动化,系统性解决传统研发中耗时长、协作难、维护成本高等痛点,推动数据研发向智能化跃迁。
390 29
一场由AI拯救的数据重构之战
|
4月前
|
编解码 物联网 API
码上生花:用API链接Qwen-Image系列及衍生LoRA生态模型
Qwen-Image系列开源三月成爆款,凭借中文场景优势与ModelScope平台深度集成,支持文生图、图像编辑及LoRA生态API调用,助力开发者高效创作。
1509 1
阿里发布 Qwen-Image-2.0,实测复杂插画生成,手绘细节还原度很高!
阿里千问Qwen-Image-2.0刚发布即实测!我们用其生成视频封面,精准还原“手绘风格+颜色编码+精细布局”。提示词含标题、图标、配色与排版要求,效果惊艳。现可通过chat.qwen.ai免费体验!
|
7月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
1380 2
|
2月前
|
人工智能 开发者
Qwen-Image又登顶啦!
Qwen-Image-2512登顶Hugging Face趋势榜榜首,并在AI Arena稳居最强开源图像模型!新发布的Qwen-image-edit-202511也在Chatbot Arena获开源第一、全球第九。双榜佳绩,技术再突破!
406 0
|
3月前
|
搜索推荐 物联网 异构计算
一张图秒生 LoRA ? Qwen-Image-i2L 诞生记
我们发布了Qwen-Image的“图生LoRA”模型,输入一张图即可端到端生成LoRA权重。通过多阶段迭代,构建了具备细节与风格保持能力的Image-to-LoRA系统,可用于高效LoRA训练初始化,推动个性化生成技术发展。
550 0

热门文章

最新文章