首次不依赖生成模型,一句话让AI修图!(2)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 首次不依赖生成模型,一句话让AI修图!

为了进一步研究矢量域优化的特性,论文对比了 CLIPVG (矢量域方法) 和 CLIPstyler (像素域方法) 采用不同 patch size 进行增强时的效果。下图中第一行为 CLIPVG 采用不同 patch size 的效果,第二行为 CLIPstyler 的效果。其文字描述为 "Doctor Strange"。整张图的分辨率为 512x512。可以看到当 patch size 较小 (128x128 或 224x224) 时,CLIPVG 和 CLIPstyler 都会在局部小块区域出现 "Doctor Strange"(奇异博士)代表性的红蓝配色,但是整张脸的语义并没有明显变化。这是因为此时的 CLIP 引导没有施加到图片整体。当 CLIPVG 将 patch size 增加到 410x410 时可以看到明显的人物身份变化,包括发型以及脸部特征都按照文字描述进行了有效编辑。如果去除 patch 增强,则语义编辑效果和细节清晰度都会有所下降,说明 patch 增强依然有正面效果。不同于 CLIPVG,CLIPstyler 在 patch 较大或去除 patch 时依然无法实现人物身份的变化,而只是改变了整体颜色和一些局部纹理。原因是 patch size 放大后像素域的方法失去了底层约束,而陷入到局部最优。这一组对比说明 CLIPVG 能够有效利用矢量域对于细节的约束,结合较大的 CLIP 作用范围 (patch size) 实现高层语义编辑,这是像素域方法难以做到的。


对比实验


在对比实验中,研究首先将 CLIPVG 和两种能对任意图片进行编辑的像素域方法进行了对比,包括 Disco Diffusion 和 CLIPstyler,下图中可以看到对于 "Self-Portrait of Vincent van Gogh" 的例子,CLIPVG 能够同时对于人物身份和绘画风格进行编辑,而像素域方法只能达到其中的一项。对于 "Gypsophila",CLIPVG 相对 baseline 方法能更精确地编辑花瓣的数量和形状。在 "Jocker, Heath Ledger" 和 "A Ford Mustang" 的例子中,CLIPVG 也能鲁棒地改变整体语义,相对来说 Disco Diffusion 容易出现局部瑕疵,而 CLIPstyler 一般只是调整了纹理和颜色。


网络异常,图片无法展示
|

(自上而下:梵高画、满天星、希斯莱杰小丑、福特野马)


研究者接着对比了针对特定领域图片 (以人脸为例) 的像素域方法,包括 StyleCLIP、DiffusionCLIP 和 StyleGAN-NADA。由于对使用范围进行了限制,这些 baseline 方法的生成质量通常更为稳定。CLIPVG 在这组对比中依然展现了不逊于已有方法的效果,尤其是和目标文字的符合程度往往更高。


(自上而下:奇异博士、异鬼、僵尸)


更多应用


利用矢量图形的特性以及 ROI 级别的损失函数,CLIPVG 能够支持一系列已有方法难以实现的创新玩法。比如本文一开始展示的多人图的编辑效果,就是通过对于不同人物定义不同的 ROI 级别文字描述实现的。下图的左边为输入,中间为 ROI 级别文字描述的编辑结果,右边为整张图只有一个整体文字描述的结果。其中 A1 到 A7 区域对应的描述分别为 1. "Justice League Six"(正义联盟),2. "Aquaman"(海王),3. "Superman"(超人),4. "Wonder Woman"(神奇女侠),5. "Cyborg"(钢骨),6. "Flash,DC Superhero"(闪电侠,DC) 和 7. "Batman"(蝙蝠侠)。可以看到 ROI 级别的描述可以对各个人物进行分别编辑,而整体描述则无法生成有效的个体身份特征。由于各个 ROI 互相之间是有重叠的,已有方法即使对每个人物单独编辑,也很难达到 CLIPVG 的整体协调性。


网络异常,图片无法展示
|

CLIPVG 还可以通过优化一部分的矢量参数,实现多种特殊的编辑效果。下图中第一行展示了只编辑部分区域的效果。第二行展示了锁定颜色参数,只优化形状参数的字体生成效果。第三行和第二行相反,通过只优化颜色参数来达到重新上色的目的。


(自上而下:子区域编辑、字体风格化、图像改色)

相关文章
|
20天前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
1月前
|
人工智能 自然语言处理 搜索推荐
最强AI写作助手,内置4o模型,引领AI智能问答的新纪元
随着人工智能技术的飞速进步,BKAI凭借其强大的GPT-4o模型,正在重新定义智能问答的标准。其中表现最强的AI助手神器:BKAI
|
13天前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
196 73
|
8天前
|
存储 人工智能 算法
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
|
15天前
|
人工智能 自动驾驶 云计算
【通义】AI视界|谷歌大模型被盯上!欧盟最高隐私监管机构对PaLM2模型展开调查~
本文汇总了近24小时内科技领域的五大要闻:欧盟对谷歌PaLM2模型启动隐私合规调查;甲骨文推出Zettascale云计算集群,集成大量NVIDIA GPU强化计算力;红杉资本偏好AI应用投资而非模型构建;夸克新推智能助手CueMe,支持长达2万字内容生成;沃尔沃与NVIDIA合作,未来车型将采用后者先进芯片提升自动驾驶功能。以上内容由通义自动生成。
|
17天前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。
|
21天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
1月前
|
人工智能 边缘计算 自然语言处理
谷歌微型AI模型“Gemma 2 2B”正出人意料地挑战科技巨头
谷歌微型AI模型“Gemma 2 2B”正出人意料地挑战科技巨头
谷歌微型AI模型“Gemma 2 2B”正出人意料地挑战科技巨头
|
20天前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
1月前
|
人工智能 自然语言处理 搜索推荐
苹果与EPFL合作发布4M AI模型,开启AI新时代
苹果与EPFL合作发布4M AI模型,开启AI新时代
苹果与EPFL合作发布4M AI模型,开启AI新时代