首次不依赖生成模型,一句话让AI修图!(2)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 首次不依赖生成模型,一句话让AI修图!

为了进一步研究矢量域优化的特性,论文对比了 CLIPVG (矢量域方法) 和 CLIPstyler (像素域方法) 采用不同 patch size 进行增强时的效果。下图中第一行为 CLIPVG 采用不同 patch size 的效果,第二行为 CLIPstyler 的效果。其文字描述为 "Doctor Strange"。整张图的分辨率为 512x512。可以看到当 patch size 较小 (128x128 或 224x224) 时,CLIPVG 和 CLIPstyler 都会在局部小块区域出现 "Doctor Strange"(奇异博士)代表性的红蓝配色,但是整张脸的语义并没有明显变化。这是因为此时的 CLIP 引导没有施加到图片整体。当 CLIPVG 将 patch size 增加到 410x410 时可以看到明显的人物身份变化,包括发型以及脸部特征都按照文字描述进行了有效编辑。如果去除 patch 增强,则语义编辑效果和细节清晰度都会有所下降,说明 patch 增强依然有正面效果。不同于 CLIPVG,CLIPstyler 在 patch 较大或去除 patch 时依然无法实现人物身份的变化,而只是改变了整体颜色和一些局部纹理。原因是 patch size 放大后像素域的方法失去了底层约束,而陷入到局部最优。这一组对比说明 CLIPVG 能够有效利用矢量域对于细节的约束,结合较大的 CLIP 作用范围 (patch size) 实现高层语义编辑,这是像素域方法难以做到的。


对比实验


在对比实验中,研究首先将 CLIPVG 和两种能对任意图片进行编辑的像素域方法进行了对比,包括 Disco Diffusion 和 CLIPstyler,下图中可以看到对于 "Self-Portrait of Vincent van Gogh" 的例子,CLIPVG 能够同时对于人物身份和绘画风格进行编辑,而像素域方法只能达到其中的一项。对于 "Gypsophila",CLIPVG 相对 baseline 方法能更精确地编辑花瓣的数量和形状。在 "Jocker, Heath Ledger" 和 "A Ford Mustang" 的例子中,CLIPVG 也能鲁棒地改变整体语义,相对来说 Disco Diffusion 容易出现局部瑕疵,而 CLIPstyler 一般只是调整了纹理和颜色。


网络异常,图片无法展示
|

(自上而下:梵高画、满天星、希斯莱杰小丑、福特野马)


研究者接着对比了针对特定领域图片 (以人脸为例) 的像素域方法,包括 StyleCLIP、DiffusionCLIP 和 StyleGAN-NADA。由于对使用范围进行了限制,这些 baseline 方法的生成质量通常更为稳定。CLIPVG 在这组对比中依然展现了不逊于已有方法的效果,尤其是和目标文字的符合程度往往更高。


(自上而下:奇异博士、异鬼、僵尸)


更多应用


利用矢量图形的特性以及 ROI 级别的损失函数,CLIPVG 能够支持一系列已有方法难以实现的创新玩法。比如本文一开始展示的多人图的编辑效果,就是通过对于不同人物定义不同的 ROI 级别文字描述实现的。下图的左边为输入,中间为 ROI 级别文字描述的编辑结果,右边为整张图只有一个整体文字描述的结果。其中 A1 到 A7 区域对应的描述分别为 1. "Justice League Six"(正义联盟),2. "Aquaman"(海王),3. "Superman"(超人),4. "Wonder Woman"(神奇女侠),5. "Cyborg"(钢骨),6. "Flash,DC Superhero"(闪电侠,DC) 和 7. "Batman"(蝙蝠侠)。可以看到 ROI 级别的描述可以对各个人物进行分别编辑,而整体描述则无法生成有效的个体身份特征。由于各个 ROI 互相之间是有重叠的,已有方法即使对每个人物单独编辑,也很难达到 CLIPVG 的整体协调性。


网络异常,图片无法展示
|

CLIPVG 还可以通过优化一部分的矢量参数,实现多种特殊的编辑效果。下图中第一行展示了只编辑部分区域的效果。第二行展示了锁定颜色参数,只优化形状参数的字体生成效果。第三行和第二行相反,通过只优化颜色参数来达到重新上色的目的。


(自上而下:子区域编辑、字体风格化、图像改色)

相关文章
|
6天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
47 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
8天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
49 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
8天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
46 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
12天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
93 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
10天前
|
存储 人工智能 PyTorch
【AI系统】模型转换流程
本文详细介绍了AI模型在不同框架间的转换方法,包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件,而规范式转换则通过一个中间标准格式(如ONNX)作为桥梁,实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节,以及模型转换工具的概览,帮助用户解决训练环境与部署环境不匹配的问题。
23 5
【AI系统】模型转换流程
|
13天前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
33 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
10天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型转换基本介绍
模型转换技术旨在解决深度学习模型在不同框架间的兼容性问题,通过格式转换和图优化,将训练框架生成的模型适配到推理框架中,实现高效部署。这一过程涉及模型格式转换、计算图优化、算子统一及输入输出支持等多个环节,确保模型能在特定硬件上快速、准确地运行。推理引擎作为核心组件,通过优化阶段和运行阶段,实现模型的加载、优化和高效执行。面对不同框架的模型文件格式和网络结构,推理引擎需具备高度的灵活性和兼容性,以支持多样化的应用场景。
29 4
【AI系统】模型转换基本介绍
|
10天前
|
机器学习/深度学习 人工智能 算法
【AI系统】模型压缩基本介绍
模型压缩旨在通过减少存储空间、降低计算量和提高计算效率,降低模型部署成本,同时保持模型性能。主要技术包括模型量化、参数剪枝、知识蒸馏和低秩分解,广泛应用于移动设备、物联网、在线服务系统、大模型及自动驾驶等领域。
38 4
【AI系统】模型压缩基本介绍
|
10天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型剪枝
本文概述了模型剪枝的概念、方法及流程,旨在通过移除神经网络中冗余或不重要的参数,实现模型规模的减小和效率的提升。剪枝不仅有助于降低模型的存储和计算需求,还能增强模型的泛化能力。文章详细介绍了剪枝的定义、分类、不同阶段的剪枝流程,以及多种剪枝算法,如基于参数重要性的方法、结构化剪枝、动态剪枝和基于优化算法的全局剪枝策略。通过这些方法,可以在保持模型性能的同时,显著提高模型的计算速度和部署灵活性。
21 2
【AI系统】模型剪枝
|
20天前
|
机器学习/深度学习 数据采集 人工智能
TÜLU 3:Ai2推出的系列开源指令遵循模型
TÜLU 3是由艾伦人工智能研究所(Ai2)推出的开源指令遵循模型系列,包括8B和70B两个版本,未来计划推出405B版本。该模型在性能上超越了Llama 3.1 Instruct版本,提供了详细的后训练技术报告,公开数据、评估代码和训练算法。TÜLU 3基于强化学习、直接偏好优化等先进技术,显著提升模型在数学、编程和指令遵循等核心技能上的表现。
73 4
TÜLU 3:Ai2推出的系列开源指令遵循模型

热门文章

最新文章