基于美学与人类偏好的AIGC生图质量评估实践-开发者社区-阿里云

AIGC生图的自动化质量评估（1）

2024-07-15 1319

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AIGC生图的自动化质量评估

AIGC生图需要进行质量评估以确保满足一定标准。这一评估过程非常重要，因其关系到内容的专业性、商业价值以及顾客的满意度。然而，传统的手动评估方式既耗时又耗力，且容易受到主观偏差的影响，导致评估成本高昂而效果不佳。目前对基模型的优化效果的全面评测，包含了十多个维度，全部标注需要2～4个人日。如果涉及模型整体效果的迭代，则需要更多的人力投入。鉴于此，自动化的质量评估方法成为一种迫切需求。通过采用算法和机器学习模型，自动化评估可以快速、准确地执行质量检查，不仅节省了大量人力资源，还提高了评估的一致性和准确性。自动化评估工具还能实现实时监控和即时反馈，从而提升整个生产流程的效率和内容的质量。总之，自动化质量评估在提高AIGC生图质量与生产效率方面发挥着不可替代的作用。本文将分享几项最新的研究进展，希望能给大家带来帮助～

APDD

▐ 主要内容

计算视觉美学是计算机视觉领域中一个非常重要的研究领域，主要涉及大型数据集训练以及神经网络模型优化，使模型能够提供对美学质量的评估。因此，构建图像美学质量评估（IAQA）基准数据集已成为推进这一方向研究的关键前提。然而，现有的数据主要关注图像的总审美得分，而对图像类别和审美属性的研究探索有限。此外，大多数现有的数据集都是在摄影领域创建的，在艺术图像领域研究不足。
本项目主要对艺术图像进行美学评估，虽然没有使用文生图模型生成的图像，但是对于图像的美学质量评估提供了一套完整的处理思路。本项目提出了一个清晰的框架来量化艺术图像中的美学分数；构建了艺术领域的多属性、多类别绘画数据集，即绘画美学数据集（APDD）；提出了一种绘画图像评估网络（AANSPS），该模型在大多数指标上取得了令人满意的结果，为本方法的有效性进行了验证。

▐ 美学评分标准

根据不同的绘画门类（油画、素描、国画）、艺术风格（象征主义、古典主义、浪漫主义、工笔、写意），题材（风景、静物、肖像、花卉和鸟类、山脉和水），我们将APDD数据集分为 24 个不同的艺术类别。

对于每张图进行审美属性的打分，审美属性的来源考虑了如下几个方面：

艺术创作者的一般思维过程。
艺术观察者如何进行分层观察。
评价者的评分方法。

最终定义了艺术图像的10个审美属性。注：并非所有的艺术类别都包含了本文提出的10个审美属性。

▐ APDD数据集

绘画美学数据集（APDD）概况：

得到了全球28位专业艺术家和数十名美术生的积极参与。
数据集包括24个不同的艺术类别和10个不同的审美属性。
收集了4985幅画作，其中注释计数超过31100个条目。

数据集的收集：

精心挑选了几个专业的艺术网站和机构作为数据来源，以确保艺术图像的广度和多样性。
从艺术学生的作业中挑选了一些审美质量较低的艺术作品。艺术家作品与学生作品比例为3:1。
收集了4985幅画作，涵盖了24个类别，每个类别至少包含200幅图片。作品包括著名艺术家作品和学生作品。该图像数据集的结构旨在为后续的评分注释提供足够的代表性和多样性。

图像标注：

评分团队根据所选的基准图像，开发了一个一致的、客观的评分系统，确保后续的评分工作能够遵循统一的标准。
第一阶段由专家评分，耗时15天，为评分活动提供了坚实的理论基础。
第二阶段由24名来自油画、素描和中国画专业的高学历学生评分。第二阶段进展得更快，总共在7天内完成。
将任务分配给对应的评分者，指定艺术类别和所涉及的图像数量，确保APDD数据集中的每个图像至少由6个个体进行评估。
在对所有评分进行综合评估后，我们根据所有注释者的评估计算平均分，最终收集每种属性的总分和单个属性分。

APDD数据集包含10个美学属性，分别为：主题逻辑、创造力、布局与构图、空间与视角、秩序感、光与影、色彩、细节和质感、整体和情绪。部分数据，如图所示：

▐ AANSPS模型

本项目提出了一种绘画图像评估网络AANSPS，并在APDD数据集上训练。

该模型先通过EfficientNet-B4网络提取图像表征。然后将图像特征输入Efficient Channel Attention (ECA) 模块，使用global average pooling (GAP)进行处理。之后进入回归网络，该部分由一个GAP层和三个线性层组成。最后输出美学得分。loss函数使用mse函数。

训练集和验证集的比例为9：1。在训练过程中，将预训练模型加载到总美学评分分支中，并基于APDD的训练集对该分支网络进行训练，得到第一个评分模型。然后，使用第一个评分模型作为新的预训练模型，并分别训练每个属性的评分分支网络。在训练其他属性分支网络时，需要冻结其他评分分支网络的参数。在每个分支网络经过训练后，它将包括之前训练过的属性分支网络。如果连续两轮的loss没有减少，则学习率乘以0.5。一旦所有的属性分支网络都完成了训练，我们就得到了最终的评分模型。

▐ 模型评估

本文利用均方误差（MSE）、平均绝对误差（MAE）和斯皮尔曼的秩阶相关系数（SROCC）来评价性能。

本项目的一些局限性：

需要进一步扩大审美分类和属性，更全面地评价审美质量。
增加APDD数据集中的图像数量。
以更详细的语言为美学属性提供注释，增加数据集的易用性。

HPS v2