本文介绍了如何制定和应用美学标准来评估和改善人工智能生成的图像质量,特别是在电商领域的应用,主要分为制定美学标准、训练美学模型、应用美学模型、升级淘宝风格模型四个步骤。
美学的定义与分析
- 图像质量标准:现代设计框架下,定义的图像质量标准基本是统一的。侧重技能和技法的定义,也由此延伸出对图、画、照片、影像的质量评判,再此基础上对成图手段的特性会有所要求和侧重。
- 图像内容标准:意识形态下的表达好坏要求是广泛的,图像质量的标准会被打破,服务于内容表达的需要。业内通常由评论家或评委等权威人士进行定义和解读。
美学项目的目标
- 第一步-制定美学标准:制定AI生图标准与AI风格标准,联合中国美院与教授一起共研。突出专业性、针对性、客观性、权威性。
- 第二步-训练美学模型:基于AI美学标准培育美学判定模型,使机器能自动判定打分。
- 第三步-应用美学模型:基于美学模型能力指导淘宝AI生图模型调优升级。
- 第四步-升级淘宝风格模型:基于风格标准建立淘宝风格模型库,使商家具备丰富多样的风格模型可供选择。打造淘宝特色风格模型。
第一步:制定美学标准
基于「图像」的构成要素进行准则框架的定义,同时侧重「AI生成的特性」构建美学的标准:
图像构成:物形/环境/构图/光影/质感
AI生成特性:元素真实性&场景合理性
AI美学标准:5项准则,19项标准
第二步:训练美学模型
- 美学模型目标:机器对图片自动打分判定的准确率提升。
- 准确率:相同图片进行美学AI打分与人工打分,取人与机器分数的重叠率。
▐ 沉浸式体验
我们的AI美学评价模型采用多模态美学预训练与多任务微调学习方式。这样做的优点如下:
- 我们的模型参数较少,可快速训练迭代,推理速度快,可快速筛选高美学图像,也可测评不同生成模型的生成效果,减少人工标注与审核成本;
- 相比于只输出美学分的模型,我们模型可以输出生成图像异常属性,可解释性较高;
- 我们的模型输出的异常属性既可以作为生图修复的前置判别器,也可以为异常生成图像打标优化生成模型;
▐ 训练过程
基于美学标准制定评分规范,建立5分制的评分规则,由设计师进行打标沉淀优质AI训练数据:
- 制定评分规则:用于AI生图的评分规范(5档),以及用于原图筛选的评分规则(3档)。
- 人模图原图美学评价能力:根据对人模、环境、构图、光影、质感等图像品质的偏好,训练专门的人模图原图美学模型,用于美学分层。可过滤的低美学类型包括图像模糊、白边图或贴图,人面部不完整或裁切,人体被遮挡多,背景差或者整体美感差等。
- AIGC生图美学评价能力:我们的AIGC生图美学评价主要针对于含有人物的生图,从关注画面合理性与关注画面融合度两大方面出发,基于5大准则、19项标准要求,制定评分规则,同时针对生图异常属性进行标注。目前我们的模型已支持的异常属性包括人与背景融合度异常(人物悬空、背景质感差等)、手部异常、面部异常、肢体异常、其他异常等,输出的美学分范围1到5分。
图:AIGC生图美学评价预测的不同美学分数的图片
合理训练:人与机器多轮匹配校验,保证数据优质。
- 1轮打分校验: 取3人平均分来累积数据,保障打分客观。有分差部分重新解读差异具体呈现的问题点。再进行校验重打。确保不同人对准则的解读能保持理解一致和稳定(5分制度)。
- 2轮AI打分校验:取3人平均分与机器进行校对,有分差部分重新解读差异具体呈现的问题点,明确是人的问题还是机器的问题,确保两者能逐步一致,保障机器理解的准确性。(有初版AI判定模型后开始进行)。