首次不依赖生成模型,一句话让AI修图!(1)

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 首次不依赖生成模型,一句话让AI修图!

首次不依赖生成模型,一句话让AI修图!

机器之心 2022-12-12 12:55 发表于北京

机器之心专栏

作者:网易互娱 AI Lab


2022 年是人工智能生成内容(AI Generated Content,AIGC)爆发的一年,其中一个热门方向就是通过文字描述(text prompt)来对图片进行编辑。已有方法通常需要依赖在大规模数据集上训练的生成模型,不仅数据采集和训练成本高昂,且会导致模型尺寸较大。这些因素给技术落地于实际开发和应用带来了较高的门槛,限制了 AIGC 的发展和创造力发挥。


针对以上痛点,网易互娱 AI Lab 与上海交通大学合作进行了研究,创新性地提出一套基于可微矢量渲染器的解决方案——CLIPVG,首次实现了在不依赖于任何生成模型的情况下,进行文字引导的图像编辑。该方案巧妙地利用矢量元素的特性对优化过程进行约束,因此不仅能够避免海量数据需求和高昂的训练开销,在生成效果上也达到了最优的水准。其对应的论文《CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics》已被 AAAI 2023 收录。




部分效果如下(按次序分别为人脸编辑、车型修改、建筑生成、改色、花纹修改、字体修改)。




在生成效果方面,CLIPVG 相比业界已知的其他方案,将语义准确度提高了 15.9%,生成质量提高了 23.6%,即能够自动编辑并输出更贴合语义和无错误的图像。在框架灵活性方面,由于 CLIPVG 可自动将像素图像转变为矢量图形,它相比其他基于像素图像的研究框架可更加灵活地对图片颜色、形状、子区域等进行独立编辑。在应用场景方面,由于 CLIPVG 完全不依赖生成模型,因此可适用于更广泛的场景,如人像风格化、卡通图编辑、字体设计和自动上色等等,它甚至能够实现多文本条件下对一张图的不同部分实现同时编辑。

思路和技术背景


从整体流程的角度,CLIPVG 首先提出了一种多轮矢量化方法,可鲁棒地将像素图转换到矢量域,并适应后续的图像编辑需求。然后定义了一种 ROI CLIP loss 作为损失函数,以支持对每个感兴趣区域 (ROI) 使用不同文字进行引导。整个优化过程通过可微矢量渲染器对矢量参数 (如色块颜色,控制点等) 进行梯度计算。


CLIPVG 融合了两个领域的技术,一是像素域的文字引导图像编辑,二是矢量图像的生成。接下来会依次介绍相关的技术背景。


文字引导图像翻译


要让 AI 在图像编辑时”听懂”文字引导,典型方法是利用对比图文预训练(Contrastive Language-Image Pre-Training,CLIP)模型。CLIP 模型可以将文字和图像编码到可比较的隐空间中,并给出”图像是否符合文字描述”的跨模态相似度信息,从而建立起文字和图像之间的语义联系。然后,事实上仅仅使用 CLIP 模型很难直接对于图像编辑进行有效引导,这是因为 CLIP 主要关注于图像的高层语义信息,而对于像素级别的细节缺乏约束,导致优化过程很容易陷入到局部最优(local minimum)或者对抗性的解决方案(adversarial solutions)。


现有的常见方法是将 CLIP 和一个基于 GAN 或 Diffusion 的像素域生成模型相结合,例如 StyleCLIP (Patashnik et al, 2021),StyleGAN-NADA (Gal et al, 2022),Disco Diffusion (alembics 2022),DiffusionCLIP (Kim, Kwon, and Ye 2022),DALL·E 2 (Ramesh et al, 2022) 等等。这些方案利用生成模型来对图像细节进行约束,从而弥补了单独使用 CLIP 的缺陷。但同时,这些生成模型严重依赖于训练数据和计算资源,并且会让图像编辑的有效范围受到训练集图片的限制。受限于生成模型的能力,StyleCLIP,StyleGAN-NADA,DiffusionCLIP 等方法都只能将单个模型限制在某个特定的领域,比如人脸图片。Disco Diffusion、DALL·E 2 等方法虽然能编辑任意图片,但需要海量的数据和计算资源来训练其对应的生成模型。


目前也有极少数不依赖于生成模型的方案,例如 CLIPstyler (Kwon and Ye 2022)。CLIPstyler 在优化时会将待编辑图像分为随机小块(random patch),并在每个 patch 上利用 CLIP 引导加强对于图像细节的约束。问题是此时每个 patch 都会单独反映输入文字所定义的语义,导致该方案只能进行风格迁移(style transfer),而无法对图像进行整体的高层语义编辑。


不同于以上的像素域方法,网易互娱 AI Lab 提出的 CLIPVG 方案通过矢量图形的特性来对图像细节进行约束,以取代生成模型。CLIPVG 可以支持任意输入图片,并能够进行泛用型的图像编辑。其输出为标准的 svg 格式矢量图形,不受分辨率的限制。


矢量图像生成


一些现有工作考虑了文字引导的矢量图形生成,例如 CLIPdraw (Frans, Soros, and Witkowski 2021),StyleCLIPdraw (Schaldenbrand, Liu, and Oh 2022)等。典型的做法是将 CLIP 和一个可微矢量渲染器相结合,并从随机初始化的矢量图形开始逐渐逼近文字所表示的语义。其中用到的可微矢量渲染器为 Diffvg (Li et al. 2020),能够将矢量图形通过可微渲染栅格化为像素图。CLIPVG 同样使用了 Diffvg 来建立矢量图到像素图之间的联系,不同于已有方法的是 CLIPVG 关注如何对已有图像进行编辑,而非直接生成。


由于已有图像中的绝大多数都是像素图,需要先进行矢量化才能够利用矢量图形特性进行编辑。现有的矢量化方法包括 Adobe Image Trace (AIT), LIVE (Ma et al. 2022)等,但是这些方法都没有考虑后续的编辑需求。CLIPVG 在已有方法的基础上引入了多轮矢量化的增强手段,以针对性提高图像编辑时的鲁棒性。


技术实现


CLIPVG 的总体流程如下图所示。首先会对输入的像素图进行不同精度的多轮矢量化 (Multi-round Vectorization),其中第 i 轮得到的矢量元素集合记为Θi。各轮得到的结果会被叠加到一起整体作为优化对象,并通过可微矢量渲染 (Differentiable Rasterization) 转换回到像素域。输出图片的起始状态是输入图片的矢量化重建,然后按照文字描述的方向进行迭代优化。优化过程会根据每个 ROI 的区域范围和关联文字,计算 ROI CLIP loss (下图中的),并根据梯度优化各个矢量元素,包括颜色参数和形状参数。


网络异常,图片无法展示
|

整个迭代优化的过程可见下例,其中的引导文字为”Jocker, Heath Ledger”(小丑,希斯 · 莱杰)。



矢量化


矢量图形可以定义为矢量元素的集合,其中每个矢量元素由一系列参数控制。矢量元素的参数取决于其类型,以填充曲线 (filled curve) 为例,其参数为,其中是控制点参数,是 RGB 颜色和不透明度的参数。对矢量元素做优化时存在一些自然的约束,比如一个元素内部的颜色始终是一致的,其控制点之间的拓扑关系也是固定的。这些特性很好地弥补了 CLIP 对于细节约束的缺失,能够极大增强优化过程的鲁棒性。


理论上来说,CLIPVG 可以借助任何一种已有方法来进行矢量化。但是研究发现这样做会导致后续的图像编辑出现几个问题。首先,通常的矢量化方法能够保证图像在初始状态时相邻的矢量元素之间是严丝合缝的,但是各个元素会随着优化的过程发生移动,导致元素之间出现“裂缝”。其次, 有时候输入图像比较简单,只需要少量矢量元素即可拟合,而文字描述的效果需要更加复杂的细节来表现,导致图像编辑时缺失必要的原材料(矢量元素)。


针对以上问题, CLIPVG 提出了多轮矢量化的策略,每一轮会调用已有方法得到一个矢量化的结果,并进行依次叠加。每一轮会相对前一轮提高精度,即用更小块的矢量元素进行矢量化。下图体现了矢量化时不同精度的差异。


第 i 轮矢量化得到的矢量元素集合可以表示为, 而所有轮产生的结果叠加后得到的矢量元素集合记作,也就是 CLIPVG 总的优化对象。


损失函数


类似于 StyleGAN-NADA 和 CLIPstyler,CLIPVG 使用了一个方向性的 CLIP 损失来度量生成图像和描述文字之间的对应关系,其定义如下,


其中表示输入的文字描述。是一个固定的参考文字,在 CLIPVG 中设为 "photo",是生成的图像(要优化的对象)。是原始图像。分别是 CLIP 的文字和图像编解码器。ΔT 和ΔI 分别表示文字和图像的隐空间方向。优化该损失函数的目的是使得图像编辑后的语义变化方向符合文字的描述。后面的公式中会忽略固定不变的 t_ref。在 CLIPVG 中,生成的图像是矢量图形经过可微渲染的结果。此外,CLIPVG 支持对每一个 ROI 分配不同的文字描述。此时方向性的 CLIP loss 会转化为如下的 ROI CLIP loss,


其中 Ai是第 i 个 ROI 区域,是其关联的文字描述。R 是可微矢量渲染器,R(Θ)是渲染出来的整张图像。是输入的整张图像。一个裁剪操作,表示从图像 I 中将区域裁剪出来。CLIPVG 同时也支持了类似 CLIPstyler 中基于 patch 的增强方案,即从每个 ROI 中可以进一步随机裁剪出多个 patch, 并根据该 ROI 对应的文字描述对每个 patch 分别计算 CLIP loss。


总的 loss 是所有区域的 ROI CLIP loss 之和,即


这里的一个区域可以是一个 ROI, 或是从 ROI 中裁剪出来的一个 patch。各个区域对应的 loss 权重。


CLIPVG 会根据以上损失函数对于矢量参数集合Θ进行优化。优化时也可以只针对Θ的一个子集,比如形状参数、颜色参数,或者特定区域对应的部分矢量元素。


实验结果


在实验部分,CLIPVG 首先通过消融实验验证了多轮矢量化策略和矢量域优化的有效性,然后和已有的 baseline 进行了对比,最后展示了特有的应用场景。


消融实验


研究首先对比了多轮矢量化 (Multi-round) 策略和只进行一轮矢量化 (One-shot) 的效果。下图中第一行是矢量化后的初始结果,第二行是编辑后的结果。其中 Nc表示矢量化的精度。可以看到多轮矢量化不仅提高了初始状态的重建精度,并且能够有效消除编辑后矢量元素之间的裂缝,并增强细节表现。


网络异常,图片无法展示
|


相关文章
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
39 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
15天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
83 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
25天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
76 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
27天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
66 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
27天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
65 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
30天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
169 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
22小时前
|
人工智能 Python
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
ImBD是一款由复旦大学、华南理工大学等机构联合推出的AI内容检测器,能够快速识别机器修订文本,适用于多种场景,显著提升检测性能。
14 5
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
|
30天前
|
机器学习/深度学习 人工智能 编解码
【AI系统】Transformer 模型小型化
本文介绍了几种轻量级的 Transformer 模型,旨在解决传统 Transformer 参数庞大、计算资源消耗大的问题。主要包括 **MobileVit** 和 **MobileFormer** 系列,以及 **EfficientFormer**。MobileVit 通过结合 CNN 和 Transformer 的优势,实现了轻量级视觉模型,特别适合移动设备。MobileFormer 则通过并行结构融合了 MobileNet 和 Transformer,增强了模型的局部和全局表达能力。
60 8
【AI系统】Transformer 模型小型化
|
28天前
|
存储 人工智能 PyTorch
【AI系统】模型转换流程
本文详细介绍了AI模型在不同框架间的转换方法,包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件,而规范式转换则通过一个中间标准格式(如ONNX)作为桥梁,实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节,以及模型转换工具的概览,帮助用户解决训练环境与部署环境不匹配的问题。
45 5
【AI系统】模型转换流程
|
1月前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
50 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型

热门文章

最新文章