首次不依赖生成模型，一句话让AI修图！（2）-阿里云开发者社区

首次不依赖生成模型，一句话让AI修图！（2）

2023-05-18 472

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 首次不依赖生成模型，一句话让AI修图！

为了进一步研究矢量域优化的特性，论文对比了 CLIPVG (矢量域方法) 和 CLIPstyler (像素域方法) 采用不同 patch size 进行增强时的效果。下图中第一行为 CLIPVG 采用不同 patch size 的效果，第二行为 CLIPstyler 的效果。其文字描述为 "Doctor Strange"。整张图的分辨率为 512x512。可以看到当 patch size 较小 (128x128 或 224x224) 时，CLIPVG 和 CLIPstyler 都会在局部小块区域出现 "Doctor Strange"（奇异博士）代表性的红蓝配色，但是整张脸的语义并没有明显变化。这是因为此时的 CLIP 引导没有施加到图片整体。当 CLIPVG 将 patch size 增加到 410x410 时可以看到明显的人物身份变化，包括发型以及脸部特征都按照文字描述进行了有效编辑。如果去除 patch 增强，则语义编辑效果和细节清晰度都会有所下降，说明 patch 增强依然有正面效果。不同于 CLIPVG，CLIPstyler 在 patch 较大或去除 patch 时依然无法实现人物身份的变化，而只是改变了整体颜色和一些局部纹理。原因是 patch size 放大后像素域的方法失去了底层约束，而陷入到局部最优。这一组对比说明 CLIPVG 能够有效利用矢量域对于细节的约束，结合较大的 CLIP 作用范围 (patch size) 实现高层语义编辑，这是像素域方法难以做到的。

对比实验

在对比实验中，研究首先将 CLIPVG 和两种能对任意图片进行编辑的像素域方法进行了对比，包括 Disco Diffusion 和 CLIPstyler，下图中可以看到对于 "Self-Portrait of Vincent van Gogh" 的例子，CLIPVG 能够同时对于人物身份和绘画风格进行编辑，而像素域方法只能达到其中的一项。对于 "Gypsophila"，CLIPVG 相对 baseline 方法能更精确地编辑花瓣的数量和形状。在 "Jocker, Heath Ledger" 和 "A Ford Mustang" 的例子中，CLIPVG 也能鲁棒地改变整体语义，相对来说 Disco Diffusion 容易出现局部瑕疵，而 CLIPstyler 一般只是调整了纹理和颜色。

网络异常，图片无法展示

（自上而下：梵高画、满天星、希斯莱杰小丑、福特野马）

研究者接着对比了针对特定领域图片 (以人脸为例) 的像素域方法，包括 StyleCLIP、DiffusionCLIP 和 StyleGAN-NADA。由于对使用范围进行了限制，这些 baseline 方法的生成质量通常更为稳定。CLIPVG 在这组对比中依然展现了不逊于已有方法的效果，尤其是和目标文字的符合程度往往更高。

（自上而下：奇异博士、异鬼、僵尸）

更多应用

利用矢量图形的特性以及 ROI 级别的损失函数，CLIPVG 能够支持一系列已有方法难以实现的创新玩法。比如本文一开始展示的多人图的编辑效果，就是通过对于不同人物定义不同的 ROI 级别文字描述实现的。下图的左边为输入，中间为 ROI 级别文字描述的编辑结果，右边为整张图只有一个整体文字描述的结果。其中 A1 到 A7 区域对应的描述分别为 1. "Justice League Six"（正义联盟），2. "Aquaman"（海王），3. "Superman"（超人），4. "Wonder Woman"（神奇女侠），5. "Cyborg"（钢骨），6. "Flash，DC Superhero"（闪电侠，DC）和 7. "Batman"（蝙蝠侠）。可以看到 ROI 级别的描述可以对各个人物进行分别编辑，而整体描述则无法生成有效的个体身份特征。由于各个 ROI 互相之间是有重叠的，已有方法即使对每个人物单独编辑，也很难达到 CLIPVG 的整体协调性。

网络异常，图片无法展示

CLIPVG 还可以通过优化一部分的矢量参数，实现多种特殊的编辑效果。下图中第一行展示了只编辑部分区域的效果。第二行展示了锁定颜色参数，只优化形状参数的字体生成效果。第三行和第二行相反，通过只优化颜色参数来达到重新上色的目的。

（自上而下：子区域编辑、字体风格化、图像改色）

首次不依赖生成模型，一句话让AI修图！（2）

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景