AAAI 2022 Oral | 无需人工标注,清华、快手提出基于参考图像的单张生成图像质量评价方法

简介: 这是一篇来自清华大学黄高团队和快手 Y-tech 团队合作的论文,该工作探究了如何在基于参考图像的生成任务中实现对于单张生成图像质量的评价。文中设计的 RISA 模型无需人工标注的训练数据,其评价结果能够与人的主观感受具有高度一致性。本工作已入选 AAAI 2022 Oral。


这是一篇来 自清华大学黄高团队和快手 Y-tech 团队合作的论文,该工作探究了如何在基于参考图像的生成任务中实现对于单张生成图像质量的评价。 文中设计的 RISA 模型无需人工标注的训练数据,其评价结果能够与人的主观感受具有高度一致性。 本工作已入选 AAAI 2022 Oral。


引言


现有的生成图像评价工作主要基于生成图像的分布对模型「整体」的生成效果进行评价。然而,一个性能优异的生成模型并不代表其合成的「任何一张」图像都具有高质量的效果。在基于参考图像(reference image)的生成任务中,譬如将用户上传的风景照渲染成某种指定的风格的业务场景中,能够对于「单张」生成图像的质量进行评价,对于提高用户的使用体验是至关重要的。


该研究提出了基于参考图像的单张生成图像质量评价方法 Reference-guided Image Synthesis Assessment(RISA)。
RISA 的贡献和创新点可以总结为以下几个方面:

  • RISA 的训练图像来自于 GAN 训练过程的中间模型生成的图像,图像的质量标签来自于模型的迭代轮数,无需人工标注,理论上可用于训练的数据无上限。
  • 由于以模型的迭代轮数作为标注不够精细,采用了 pixel-wise interpolation 和 mutiple binary classifiers 的方法来增强训练的稳定性。
  • 引入了无监督的对比学习损失,学习参考图像和生成图像之间的风格相似度。


图片.png

论文链接:https://arxiv.org/pdf/2112.04163.pdf

实现策略


RISA 的整体框架十分简洁,参考图像和生成图像经过参数共享的风格提取器得到相应的特征向量,接着计算两特征向量的 L1 距离并输入到 mutiple binary classifiers 中得到预测向量,最后预测向量元素取平均得到最终的质量分数。

图片.png


RISA 的训练数据来自一系列 GAN 训练过程中的中间模型的生成图像,以下图中给出的一性别转换任务为例,可以看到,在 GAN 的训练早期,模型随着训练迭代轮数的增加,生成图像的质量会有显著的提升;而在训练后期,模型的生成图像的质量会趋于稳定。

图片.png


本文采用一系列中间模型的生成图像作为 RISA 的训练数据,这些图像的样本标签由其对应模型的训练迭代轮数得到。但显然这样的标注形式不太适合训练后期的模型,因为训练后期生成图像质量不会有显著的变化。为了使训练数据更适合 RISA 的训练,文中采用了 pixel-wise interpolation 的技巧,即图像空间的线性插值,用于估计训练后期图像质量变化。

如下图所示,理想情况下,生成图像随着 GAN 的训练轮数的增加单调变好,但实际上对于简单的任务,训练后期生成图像的质量几乎没有变化;对于困难的任务,训练后期生成图像的质量随着训练轮数的增加呈现震荡变好的趋势。因此文中选取了 FID 曲线变化的肘点作为 GAN 的训练前期和后期的分界,对于训练前期直接采样中间模型生成图像,并用迭代轮数作为图像质量标签;对于训练后期,选取开始和最终的两个模型生成具有明显质量差异的图像,再对图像进行线性插值得到一系列中间质量的图像。

图片.png


插值图像的一些 demo 如下动图所示,图中所示 epsilon 表示两幅图融合时的权重。

001.gif


除图像空间的插值外,为了保证 RISA 的训练稳定,RISA 的预测使用的是个二值分类器(multiple binary classifers)输出取平均的形式,而没有采用简单的回归器输出拟合值。其中第个二值分类器用于预测当前生成图像质量大于一个特定阈值的概率。实验表明,将质量评估从回归问题转化为分类问题,能够显著地提升 RISA 的性能。

损失函数的设计上考虑了三个方面:1)弱监督损失,用于拟合输入参考图像 & 生成图像对及其对应的质量标签;2)无监督对比学习损失,用于捕捉参考图像和生成图像风格相似度;3)上界损失,用于学到来自真实图像的两个增强图像的风格一致性。

上界损失表达的是和风格信息完全一致,将其输入 RISA 预测结果应当对应于最高的质量分数 1。

在对比学习损失中,文中首先考虑对于参考图像做两次不同的且不破坏图像风格信息的数据增强图像和,即仅包括图像的放缩,裁剪以及翻转。生成图像与构成正样本对,对比学习损失拉近它们的预测输出;同一批输入样本中,与其对应的参考图像,与其不对应的参考图像构成负样本对,对比学习损失拉大它们的预测输出。

图片.png


实验结果


文中基于四种生成模型,五个数据集上的生成图像分别训练多个 RISA 模型。首先从可视化的角度,下图说明 RISA 能够按照质量从低到高给出对应的质量评价分数。

图片.png


接着从量化指标的角度,文中进行了广泛的人工评价测试,以说明 RISA 评价结果和人的主观感受具有较高的一致性。具体来说,对于每个任务都选取了上千个三元组样本,包含一张参考图像和两张生成图像。两张生成图像可能来自于同一架构模型的两个不同训练阶段的中间模型,也可能来自于两个充分收敛的不同架构的模型。测试者被要求从二者中选出质量更好的一张。最终对于每个任务,保证了每组样本都有至少三个测试者参与评价,而所有评价均一致的样本被保留,用于评估 RISA 的评价与人的主观感受的一致性。


下表对应于 RISA 的训练数据和测试数据均由相同架构的模型生成的情况。可以看到 RISA 的评价结构能够与人的主观感受具有更高的一致性,且优于现有的主流的有参考和无参考单张图像质量评价方法。

图片.png


下表对应于 RISA 的训练数据和测试数据均由不同架构的模型生成的情况。表中结果进一步说明 RISA 具有较好的在不同模型之间迁移的能力。

图片.png


相应地,研究者提供了三元组上的 RISA 和每个数据集下最优的基线方法的可视化对比。可以看到 RISA 能够在考虑生成图像的真实程度的同时,兼具评价生成图像和参考图像的风格相似度水平的能力。

图片.png


最后研究者进行了两组消融实验,说明了 RISA 引入 multiple binary classifers,pixel-wise interpolation 和其每个损失项的意义。

图片.png

相关文章
|
机器学习/深度学习 自然语言处理 并行计算
Self-Attention 原理与代码实现
Self-Attention 原理与代码实现
772 0
|
算法 Java PHP
算法思考:红包金额生成
最近在整理过去的项目时,回顾了某年红包活动的项目,其中涉及红包金额计算的算法。近些年各家大厂举办的春节红包活动越来越完善,关于活动背后的整体设计介绍、分析、探讨层出不穷。本篇先不关注整体架构,选择红包金额的计算方法作为分析内容。 在当时的项目中,红包金额计算主要是采用了基于一些入参的随机数生成,并且生成的是单个红包金额,并未使用队列方式做预生成。所以再次回顾这个案例,其中其实还有很多可以玩味和深入思考的地方,在这里做一次思考总结。
438 0
|
Shell Android开发
解决Android的adb命令行报错Permission denied
解决Android的adb命令行报错Permission denied
2364 0
解决Android的adb命令行报错Permission denied
|
5月前
|
SQL 数据挖掘 数据库
第三篇:高级 SQL 查询与多表操作
本文深入讲解高级SQL查询技巧,涵盖多表JOIN操作、聚合函数、分组查询、子查询及视图索引等内容。适合已掌握基础SQL的学习者,通过实例解析INNER/LEFT/RIGHT/FULL JOIN用法,以及COUNT/SUM/AVG等聚合函数的应用。同时探讨复杂WHERE条件、子查询嵌套,并介绍视图简化查询与索引优化性能的方法。最后提供实践建议与学习资源,助你提升SQL技能以应对实际数据处理需求。
324 1
|
5月前
|
缓存 数据挖掘 BI
|
4月前
|
人工智能 运维 数据可视化
申报开启丨2025年6月批次阿里云协同育人项目申报指南,支持所有学科丨云工开物
阿里云支持教育部产学合作协同育人项目,助力高校教学创新与人才培养。2025年6月批次申报通知发布,包含教学内容和课程体系改革、实践条件和实践基地建设两大类。具体方向涵盖AI+X专业课程、计算机实践、AIGC设计、大数据分析及人工智能通识教育等,提供资金、技术及资源支持。申报院校需具备实践基地,课程不少于8学时。详情及流程见官方链接,联系刘老师了解更多。
|
机器学习/深度学习 数据可视化 vr&ar
python根据历史数据预测
7月更文挑战第16天
|
10月前
|
机器学习/深度学习 传感器 人工智能
开源AI视频监控系统在监狱安全中的应用——实时情绪与行为分析、暴力预警技术详解
针对监狱环境中囚犯情绪波动和复杂人际互动带来的监控挑战,传统CCTV系统难以有效预警暴力事件。AI视频监控系统基于深度学习与计算机视觉技术,实现对行为、情绪的实时分析,尤其在低光环境下表现优异。该系统通过多设备协同、数据同步及自适应训练,确保高精度识别(95%以上)、快速响应(<5秒),并具备24小时不间断运行能力,极大提升了监狱安全管理的效率与准确性。
787 1
|
12月前
|
人工智能 自然语言处理 分布式计算
阿里云通义灵码使用技巧
随着人工智能技术的发展,云端服务提供商越来越重视在 AI 领域的布局。阿里云推出的**通义灵码**作为其 AI 大模型的重要组成部分,为企业和开发者提供了强大的自然语言处理(NLP)和数据分析能力。在这篇文章中,我们将深入探讨如何高效使用阿里云通义灵码,并为开发者提供一些实用的使用技巧。
686 4
|
人工智能
AIGC生图的自动化质量评估(2)
AIGC生图的自动化质量评估
800 6