首次不依赖生成模型,一句话让AI修图!(2)

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 首次不依赖生成模型,一句话让AI修图!

为了进一步研究矢量域优化的特性,论文对比了 CLIPVG (矢量域方法) 和 CLIPstyler (像素域方法) 采用不同 patch size 进行增强时的效果。下图中第一行为 CLIPVG 采用不同 patch size 的效果,第二行为 CLIPstyler 的效果。其文字描述为 "Doctor Strange"。整张图的分辨率为 512x512。可以看到当 patch size 较小 (128x128 或 224x224) 时,CLIPVG 和 CLIPstyler 都会在局部小块区域出现 "Doctor Strange"(奇异博士)代表性的红蓝配色,但是整张脸的语义并没有明显变化。这是因为此时的 CLIP 引导没有施加到图片整体。当 CLIPVG 将 patch size 增加到 410x410 时可以看到明显的人物身份变化,包括发型以及脸部特征都按照文字描述进行了有效编辑。如果去除 patch 增强,则语义编辑效果和细节清晰度都会有所下降,说明 patch 增强依然有正面效果。不同于 CLIPVG,CLIPstyler 在 patch 较大或去除 patch 时依然无法实现人物身份的变化,而只是改变了整体颜色和一些局部纹理。原因是 patch size 放大后像素域的方法失去了底层约束,而陷入到局部最优。这一组对比说明 CLIPVG 能够有效利用矢量域对于细节的约束,结合较大的 CLIP 作用范围 (patch size) 实现高层语义编辑,这是像素域方法难以做到的。


对比实验


在对比实验中,研究首先将 CLIPVG 和两种能对任意图片进行编辑的像素域方法进行了对比,包括 Disco Diffusion 和 CLIPstyler,下图中可以看到对于 "Self-Portrait of Vincent van Gogh" 的例子,CLIPVG 能够同时对于人物身份和绘画风格进行编辑,而像素域方法只能达到其中的一项。对于 "Gypsophila",CLIPVG 相对 baseline 方法能更精确地编辑花瓣的数量和形状。在 "Jocker, Heath Ledger" 和 "A Ford Mustang" 的例子中,CLIPVG 也能鲁棒地改变整体语义,相对来说 Disco Diffusion 容易出现局部瑕疵,而 CLIPstyler 一般只是调整了纹理和颜色。


网络异常,图片无法展示
|

(自上而下:梵高画、满天星、希斯莱杰小丑、福特野马)


研究者接着对比了针对特定领域图片 (以人脸为例) 的像素域方法,包括 StyleCLIP、DiffusionCLIP 和 StyleGAN-NADA。由于对使用范围进行了限制,这些 baseline 方法的生成质量通常更为稳定。CLIPVG 在这组对比中依然展现了不逊于已有方法的效果,尤其是和目标文字的符合程度往往更高。


(自上而下:奇异博士、异鬼、僵尸)


更多应用


利用矢量图形的特性以及 ROI 级别的损失函数,CLIPVG 能够支持一系列已有方法难以实现的创新玩法。比如本文一开始展示的多人图的编辑效果,就是通过对于不同人物定义不同的 ROI 级别文字描述实现的。下图的左边为输入,中间为 ROI 级别文字描述的编辑结果,右边为整张图只有一个整体文字描述的结果。其中 A1 到 A7 区域对应的描述分别为 1. "Justice League Six"(正义联盟),2. "Aquaman"(海王),3. "Superman"(超人),4. "Wonder Woman"(神奇女侠),5. "Cyborg"(钢骨),6. "Flash,DC Superhero"(闪电侠,DC) 和 7. "Batman"(蝙蝠侠)。可以看到 ROI 级别的描述可以对各个人物进行分别编辑,而整体描述则无法生成有效的个体身份特征。由于各个 ROI 互相之间是有重叠的,已有方法即使对每个人物单独编辑,也很难达到 CLIPVG 的整体协调性。


网络异常,图片无法展示
|

CLIPVG 还可以通过优化一部分的矢量参数,实现多种特殊的编辑效果。下图中第一行展示了只编辑部分区域的效果。第二行展示了锁定颜色参数,只优化形状参数的字体生成效果。第三行和第二行相反,通过只优化颜色参数来达到重新上色的目的。


(自上而下:子区域编辑、字体风格化、图像改色)

相关文章
|
29天前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
331 109
|
16天前
|
机器学习/深度学习 数据采集 人工智能
PyTorch学习实战:AI从数学基础到模型优化全流程精解
本文系统讲解人工智能、机器学习与深度学习的层级关系,涵盖PyTorch环境配置、张量操作、数据预处理、神经网络基础及模型训练全流程,结合数学原理与代码实践,深入浅出地介绍激活函数、反向传播等核心概念,助力快速入门深度学习。
69 1
|
2月前
|
人工智能 自然语言处理 搜索推荐
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
|
2月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
173 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
2月前
|
人工智能 JavaScript 测试技术
Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?
Cradle 是由 BAAI‑Agents 团队开源的通用计算机控制(GCC)多模态 AI Agent 框架,具备视觉输入、键鼠操作输出、自主学习与反思能力,可操作各类本地软件及游戏,实现任务自动化与复杂逻辑执行。
195 6
|
2月前
|
存储 人工智能 算法
AI测试平台实战:深入解析自动化评分和多模型对比评测
在AI技术迅猛发展的今天,测试工程师面临着如何高效评估大模型性能的全新挑战。本文将深入探讨AI测试平台中自动化评分与多模型对比评测的关键技术与实践方法,为测试工程师提供可落地的解决方案。
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
4天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
123 36
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
7天前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
67 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用

热门文章

最新文章