AIGC生图的自动化质量评估（2）-阿里云开发者社区

AIGC生图的自动化质量评估（2）

2024-07-15 505 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AIGC生图的自动化质量评估

Pick-a-Pic

▐ 主要内容

对于文生图模型，反映人类偏好的大型数据集，很少有公开的。为了解决这个问题，本项目创建了一个web应用程序，允许文生图模型的用户生成图像并指定他们的偏好。使用这个web应用程序，构建了一个大型的、开放的文生图数据集，并且标注有用户偏好。部分数据集如下：

利用这个数据集，可以训练一个基于clip的评分函数，即PickScore，它在预测人类偏好的任务上展示了很好的性能。PickScore可以对于多张生成图像进行偏好排序，以此比较不同文生图模型的效果、以及相同模型在不同参数下的效果。

▐ Pick-a-Pic数据集

Pick-a-Pic数据集概况：

包含超过50w组信息和3.5w个不同的prompt。
每组信息包含一个prompt、两张图、以及偏好标签。
偏好标签有三种情况：喜欢第一张图，喜欢第二张图，两幅图都差不多。
对一个图片的选择是由文生图任务的爱好者参与的，而不是完全无生图模型使用经验的人员。

如何通过web应用程序收集数据：

用户首先写一个prompt，然后收到两张图片。
用户做出偏好判断，选择其中一张偏好的图片。
之后会呈现一个新的图像的图像来替代被拒绝的图像，用户会在这张新图和刚才喜欢的图像里做偏好选择。
该流程会一直重复，直到用户改变prompt。

数据集中的图像是通过采用多个模型生成的，即Stable Diffusion 2.1、Dreamlike Photoreal2.0, 以及使用不同CFG值的Stable Diffusion XL模型。同时，作者将减少数据集中包含的NSFW示例的数量，并将定期上传最新版本的数据集。在处理收集到的交互时，作者过滤了NSFW短语，并且禁止一些非法用户。每一次收集，将数据集划分为训练、验证集和测试集：

采样1000个prompt，确保每个prompt都是唯一的。
将这些prompt随机分成大小相同的两组，来创建验证集和测试集。
每个prompt采样一组信息。
确保训练集和这两个子集之间没有重复的prompt。

▐ PickScore模型

为了训练评分函数，本项目使用人类偏好数据和类似于InstructGPT的reward模型，来微调CLIP-H。PickScore在预测用户偏好的任务中取得了SOTA表现，PickScore准确率为70.5%，人类志愿者准确率为68.0%，而原生CLIP-H为60.8%。人类偏好与PickScore有很强的相关性（0.917），而与FID指标则呈负相关（-0.900）。

PickScore遵循CLIP的架构：给定一个prompt x和一个图像y，评分函数s通过使用两个编码器计算文本和图像的相似度。

计算对于两张图的偏好得分：分别计算两张图与prompt的相似度，计算函数的分母为两张图与prompt的相似度，分子为其中一张图与prompt的相似度，这个函数的目的是做归一化计算。

计算loss函数：拿到模型的偏好得分后，计算与人工打分的KL散度，表示预测结果与真实结果的差距。训练过程中，通过调整模型参数来最小化KL散度。

由于许多图像对来自于相同的prompt，通过对于这些图像对进行加权平均，来减轻过拟合的风险。具体来说，每个图像的权重，与它在数据集中的出现频率成反比。

▐ 模型评估

对于模型推理，如果两张图的偏好得分的差值的绝对值，小于一个超参t，即

则认为这两张图偏好一致。该超参，对于不同模型效果不一样，作者采取了一个最合适的值，来用于不同模型的评估。

使用Spearman方法来计算预测得分与人类预测结果的相似度：

相关效果，对于每两列，左侧为CLIP-H偏好的图像，右侧为PickScore偏好的图像，绿色框选中的图像为人类偏好的图像，可以看到，PickScore偏好和人类偏好更加接近，PickScore通常选择更美观和与prompt更一致的图像。

偏好打分模型：可以对于一组生成图像，进行打分排序，并选择得分最高的那一张。PickScore优于其他评估方法。

本项目的一些局限性：

一些图像和提示可能包含NSFW内容，这可能会使数据产生偏差。
用户的偏好可能可能反映在所收集的数据中。

总结与讨论

在AIGC生图过程中，进行图像质量的自动化评估，能快速进行打分、节省人工成本，更准确的进行模型效果比较，以促进模型迭代。对于特定场景的自动化评估，则需要建立对应的评估体系，包括评分准则、特定数据集、打分模型。我们团队正在进行家装行业AIGC的相关研发，以提高家装AI模型的效果。我们希望与对此方向感兴趣的同学一起探讨和交流。

参考文献

《Paintings and Drawings Aesthetics Assessment with Rich Attributes for Various Artistic Categories》
https://arxiv.org/abs/2405.02982
《Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis》
https://arxiv.org/abs/2306.09341
《Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation》
https://arxiv.org/abs/2305.01569

团队介绍

我们是淘天集团-场景智能技术团队，一支专注于通过AI和3D技术驱动商业创新的技术团队, 依托大淘宝丰富的业务形态和海量的用户、数据, 致力于为消费者提供创新的场景化导购体验, 为商家提供高效的场景化内容创作工具, 为淘宝打造围绕家的场景的第一消费入口。我们不断探索并实践新的技术, 通过持续的技术创新和突破，创新用户导购体验, 提升商家内容生产力, 让用户享受更好的消费体验, 让商家更高效、低成本地经营。

AIGC生图的自动化质量评估（2）

▐ 主要内容

▐ Pick-a-Pic数据集

▐ PickScore模型

▐ 模型评估

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AIGC生图的自动化质量评估（2）

▐ 主要内容

▐ Pick-a-Pic数据集

▐ PickScore模型

▐ 模型评估

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景