什么样才算好图——从生图模型质量度量方法看模型能力的发展(下)

简介: 什么样才算好图——从生图模型质量度量方法看模型能力的发展(下)

什么样才算好图——从生图模型质量度量方法看模型能力的发展(上):https://developer.aliyun.com/article/1480483


2020往后

Transformer由谷歌团队在2017年论文《Attention is All You Need》提出,DDPM的UNet可以根据当前采样的t预测noise,但没有引入其他额外条件。但是LDM实现了“以文生图”,“以图生图”等任务,就是因为LDM在预测noise的过程中加入了条件机制,即通过一个编码器(encoder)将条件和Unet连接起来。一方面,图片生成的效果在这段时间大幅度提高,另一方面,可以通过自然语言控制生图模型的输出,模型的评价指标除了符合人类感官外,图像美学和图文对的匹配程度也是后期评价生图结果的重要指标。

 Transformer for image quality(TRIQ)


这是第一个使用Transformer架构用于图片质量评价的模型,推出自2020年,主要思想是先使用卷积神经网络(CNN)提取特征,并在其上方使用了一个浅层Transformer编码器。为了处理不同分辨率的图像,该架构采用了自适应的位置嵌入。考虑到压缩图片的分辨率可能对图片质量校验造成负向的影响,TRIQ框架中保留了图片的原始大小,首先通过ResNet-50作为特征提取器,C5的输出在经过1*1的卷积之后可以得到H/32*W/32*32维的特征,考虑到大分辨率的图片会占用非常多的内存,这里在进入Transformer之前增加了一个池化层,会通过图片分辨率动态确定一个P值。


Transformer Encoder后的MLP网络头部由两个全连接(FC)层和一个中间的dropout层组成,用于预测感知图像质量,最终输出一个五维向量用于表述图片的质量分布。


code:https://github.com/junyongyou/triq


 Image Quality Transformer(IQT)


IQT方法提出于2021年,参考了TRIQ的方法,也是是一种基于transformer的图像质量评估(IQT),模型的输出结果更接近人类的感知结果,用于全参考图像质量评估,类似于LPIPS。作者宣称在CVPR 2021的NTIRE 2021挑战赛中获得Top1。如下图作者利用Inception-Resnet-V2 分别对生成图片和参考图片的提取感知特征表征,感知特征表征结果来自于6个中间层的输出并通过级联的结果,将参考图的特征向量(f ref),和参考图与生成图的特征向量取差值(f diff)并输入到Transformer;最后,transformer的输出通过一个MLP Head,用于预测一个最终的图像质量分数。



 CLIPScore


提出于2021年,这是一种用于评价文本和图片关联程度的方法,原理比较简单,通过一个跨模态检索模型分别对图像和文本进行embeding,并比较两者的余弦相似度。公式如下:


其中,c和v是CLIP编码器对Caption和图像处理输出的embedding,w作者设置为2.5。这个公式不需要额外的模型推理运算,运算速度很快,作者称在消费级GPU上,1分钟可以处理4k张图像-文本对。


 Aesthetic Predictor


目前自2022年之后,出现了基于CLIP+MLP的美学评价方案,创作者都表示“结果令人兴奋”,从大模型的能力可以YY到其在小样本的泛化性上必然非同凡响,同时可以衍生到不同的评价目标上,但是具体对比之前的方案怎么样就不得而知了。


  • LAION-AESTHETICS


laion在2022年提出的一个用于评估图片的美学评价模型,使用了clip-ViT-L-14模型和MLP组合,仅模型开源。

官网:https://laion.ai/blog/laion-aesthetics/

结果见:http://captions.christoph-schuhmann.de/aesthetic_viz_laion_sac+logos+ava1-l14-linearMSE-en-2.37B.html


  • CLIP+MLP Aesthetic Score Predictor


代码:https://github.com/christophschuhmann/improved-aesthetic-predictor


 Human Preference Score


2023往后,出现了用于预测图片是否符合人类偏好模型,这类模型多使用人工标注的图文偏好数据微调CLIP实现。


  • ImageReward


为了做 文生图Diffusion的奖励反馈学习对Diffusion进行调优,作者设计了ImageReward,一个由BLIP(ViT-L作为图像编码器的,12层Transformer作为文本编码器)+ MLP(打分器)组成的人类偏好预测模型。


  • Human Preference Score (HPS)


商汤在CLIP模型上基于798,090条人类偏好标注数据微调了这个模型,标注的图片来源于各类文生图模型的输出,据称其数据集是同类型数据集中最大的一个。其将clip模型视为一个评分器,用于计算提示词和图片的相关程度(同clipscore)。code: https://github.com/tgxs002/HPSv2


  • X-IQE


基于视觉大语言模型(MiniGPT-4)进行文本到图像生成的可解释图像质量评估,它从 Fidelity(真实度),Alignment(图文对应程度),Aesthetics(美观度)三个指标分别进行评分。从COCO和DrawBench数据集的测试结果上看,和ImgRwd和HPS接近。

主要的prompt见:https://github.com/Schuture/Benchmarking-Awesome-Diffusion-Models/blob/main/X-IQE/README.md

总结


从计算方法上看,似乎没有前一个时期那么精彩,通过微调CLIP再套用一个MLP几乎成为了这个时期的评价范式,但是评价指标要远比前一个时期更抽象和复杂。但这并不意味着FID这类指标已经没用了,相反,这个指标几乎在每个新模型的发布后都会拿出来比较。


本来只是想梳理一下图像质量度量的方法,但是层层挖掘却越可以看出图片生成模型的发展历程,从最初的 图像基础变换到人脸、动物,到现在可控制的图像生成,图片生成技术越来越趋于专业性,我们审视一张图片的方式从“能看懂”到 “像真的”到“符合美学标准“,可以想到未来一套美学标准是无法通吃的,对于不同行业和场景,生图模型会越来越细分,而美学标准也会随之分化。

参考资料

  1. Heusel, Martin et al. “GANs Trained by a Two Time-Scale Update Rule Converge to a Nash Equilibrium.” ArXiv abs/1706.08500 (2017): n. pag.
  2. https://www.jiqizhixin.com/articles/2019-01-10-18
  3. Dziugaite, Gintare Karolina et al. “Training generative neural networks via Maximum Mean Discrepancy optimization.” Conference on Uncertainty in Artificial Intelligence (2015).
  4. Binkowski, Mikolaj et al. “Demystifying MMD GANs.” ArXiv abs/1801.01401 (2018): n. pag.
  5. https://www.jiqizhixin.com/articles/2019-01-10-18
  6. https://laion.ai/blog/laion-aesthetics/
  7. https://www.jianshu.com/p/fc5526b1fe3b#comments
  8. https://deep-generative-models.github.io/files/ppt/2021/Lecture%2019%20Evaluation%20-%20Sampling%20Quality.pdf
  9. Zhang, Richard et al. “The Unreasonable Effectiveness of Deep Features as a Perceptual Metric.” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018): 586-595.
  10. You, Junyong and Jari Korhonen. “Transformer For Image Quality Assessment.” 2021 IEEE International Conference on Image Processing (ICIP) (2020): 1389-1393.
  11. Cheon, Manri et al. “Perceptual Image Quality Assessment with Transformers.” 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) (2021): 433-442.
  12. Hessel, Jack et al. “CLIPScore: A Reference-free Evaluation Metric for Image Captioning.” ArXiv abs/2104.08718 (2021): n. pag.
  13. Wu, Xiaoshi et al. “Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis.” ArXiv abs/2306.09341 (2023): n. pag.
  14. https://www.e-learn.cn/topic/1480759


团队介绍

我们是淘天集团-场景智能技术团队,一支专注于通过AI和3D技术驱动商业创新的技术团队, 依托淘宝天猫丰富的业务形态和海量的用户、数据, 致力于为消费者提供创新的场景化导购体验, 为商家提供高效的场景化内容创作工具, 为淘宝天猫打造围绕家的场景的第一消费入口。我们不断探索并实践新的技术, 通过持续的技术创新和突破,创新用户导购体验, 提升商家内容生产力, 让用户享受更

目录
相关文章
|
自然语言处理 数据可视化 物联网
Qwen1.5-MoE开源,魔搭社区推理训练最佳实践教程来啦
通义千问团队推出Qwen系列的首个MoE模型,Qwen1.5-MoE-A2.7B。
|
存储 JavaScript 前端开发
VSCode安装配置使用教程(最新版超详细保姆级含插件)一文就够了
Visual Studio Code 是一个轻量级功能强大的源代码编辑器,支持语法高亮、代码自动补全(又称 IntelliSense)、代码重构、查看定义功能,并且内置了命令行工具和 Git 版本控制系统。适用于 Windows、macOS 和 Linux。它内置了对 JavaScript、TypeScript 和 Node.js 的支持,并为其他语言和运行时(如 C++、C#、Java、Python、PHP、Go、.NET)提供了丰富的扩展生态系统。为了不影响读者的沉浸式阅读学习,如需使用目录请在左侧使用即可。
6993 0
VSCode安装配置使用教程(最新版超详细保姆级含插件)一文就够了
|
存储 算法 数据库
一起聊聊图像质量和美学评估的数据集
图像质量和美学评估是计算机视觉领域中热点的研究问题,并且极具应用前景,可与众多实际应用深度结合。评价一张图片,主要从两个方向,一个是图像的质量,如像素、清晰度、有无噪声等,一个是图像的感觉,也就是美学,如构图、颜色、内容主体等。通过这两个方面就可以评价一张图片的好坏,通过计算机视觉算法,可以为图片自动评分,得分高的图片被认为较好,可以用于推荐和搜索等应用场景。本文主要聊聊一些关于图像质量和美学评估
13092 1
|
5月前
|
计算机视觉
ROS2错误排查:解决cv_bridge与opencv版本不匹配问题。
要记住,这只是一种可能的解决方式,你可能还需要针对你的特定问题进行其他操作。如果遇到任何问题,记住,遇到困难不要灰心,继续把问题当作一个冒险,勇敢地前行。
409 92
|
机器学习/深度学习 数据采集 计算机视觉
什么样才算好图——从生图模型质量度量方法看模型能力的发展(上)
什么样才算好图——从生图模型质量度量方法看模型能力的发展
422 1
|
编解码 JSON 自然语言处理
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
经过了一年的不懈努力,今天通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。那么Qwen2-VL 有什么新功能呢?一起来看一下吧
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
|
人工智能 分布式计算 数据处理
Big Data for AI实践:面向AI大模型开发和应用的大规模数据处理套件
文叙述的 Big Data for AI 最佳实践,基于阿里云人工智能平台PAI、MaxCompute自研分布式计算框架MaxFrame、Data-Juicer等产品和工具,实现了大模型数据采集、清洗、增强及合成大模型数据的全链路,解决企业级大模型开发应用场景的数据处理难题。
|
人工智能
AIGC生图的自动化质量评估(2)
AIGC生图的自动化质量评估
780 6
|
机器学习/深度学习 编解码 算法
AIGC生图的自动化质量评估(1)
AIGC生图的自动化质量评估
577 6