AI生图美学在淘宝的实践应用(2)

简介: AI生图美学在淘宝的实践应用



技术框架

  1. AIGC生图美学评价:根据设计师定义的5分美学准则,映射到五大质量等级。同时,我们对生成数据进行归纳分析,总结出五大属性,正常、人与背景融合度异常、手部异常、面部崩坏、躯体异常、其他异常。质量等级与属性原因组合形成美学评价提示词,作为多模态预训练模型的输入,损失函数采用美学分回归损失与属性原因多标签分类损失。
  2. 人模图原图美学评价:CLIP在美学评价上对图像质量、色彩、光照、构图、抽象概念等都具有很好的good/bad分类的zero-shot能力。因此,在预训练阶段,我们通过蒸馏CLIP的image encoder,提升backbone的美学表征能力。微调阶段使用提升后的backbone预测归一化后的美学评分。损失函数采用由L1损失和二分类交叉熵损失的加权,来提高模型的性能和鲁棒性。模型训练完成后,通过选取不同的阈值,能分层出不同美感级别的人模图片。


 测试阶段


基于测试情况,分析当前机器问题或者人的问题,可持续调优模型的准确率。在这个过程中不断进化调优。

  1. 调优通用性:在千牛平台上测试淘宝内部的【千牛智能模型】与淘宝外部第三方的模型。同类型的人模评测可兼容,但发现有较大的浮动。通过抓取具体图片问题时发现,上传的原图质量会对于准确率有影响。为保障公平需要制定测试图集的标准。
  2. 机器打分的真实性测试:准确率会每周产生一定的上下浮动,基于模型情况进行标准测试集的建设。运用1200张标准测试集进行AI与人工打分(考虑原图难易情况会对AI判断造成影响,测试集分为简单、中等、困难三个等级,占比1:1:1)。
  3. 机器打分的严谨性测试:调优后的打分模型,会对新全新生成的图片进行自动打分,并和人的打分进行比对。
  4. image.png


第三步:应用美学模型


目标:运用美学模型,提升淘宝AI大模型的良图率。



 美学模型1.0版本-应用AI生图评测能力:


  1. 目标:通过美学模型评测淘宝生成模型,对图片评分与画面问题的判定,对判定的图片问题进行修复。
  2. 判定能力:可针对图片进行(1-5分)打分,筛选良图与差图,指导模型后续的优化建议。
  3. 识别能力:目前可反馈5个关键画面属性。(1. 手部异常。2. 人与背景不融合。3. 脸部异常。4. 身体异常。5. 其他)。
  4. 修复能力:AIGC生成人物时画好的手一直是难点,人的手部自由度高且姿态复杂多变、图中占比小且细节多,导致画手的成功率不高。特别地,在实际业务中,由于用户上传的图片手部细节不明显或者手中拿着物品等复杂场景,在进行换模特换背景时,生成模型往往不能学到手部的准确细节特征导致画出不好的手。我们探索全新的手部修复技术方案。由 AI美学评价模型判断生成异常的手,对异常的手,利用3D手部状态重建模型保持正确的手指数量与手的形状,同时能够自适应生成图像中所需的手势。基于我们内部基底模型,融合Text Embedding,根据重建后的手部姿态重新绘制正常的手。经过反复调试参数和场景适配,我们的手部修复方案在业务数据上测试,修复成功率超过50%,可大幅度提高整体的生图良图率。手部修复的case如下:


image.png


 美学模型2.0版本-应用原图评测能力


  1. 目标:调优淘宝基地模型,目前有混杂的原图数据集,数据集质量参差不齐,需要进行有效的筛选优化。
  2. 背景:目前原图数据集来源核心是两部分:视觉中国和淘宝模特图。
    视觉中国的摄影图核心是供给给新闻稿做新闻配图,因此大量的图片为了营造故事性对人物和场景有独特的表达。淘宝模特图商家已经做了后期处理,有些诸如模特的处理已经比较夸张。

    image.png
  3. 筛选优质原图:通过原图判定模型,筛选优质摄影图,调优自研模型等数据集效果。提升生图的良图率。(如多人混乱、背景混乱,场景融合感等效果可提升)。
    收集专业摄影原图:目前通过设计团队搜集优质的摄影模特图。

  4. 1.0版本的AI美学评价模型影响生成模型,使生成模型自适应对齐人类偏好:AI美学评价可用于指导基于扩散的生成模型,不仅指导生成模型要生成高美学图像,也需要减少生成低美学图像的概率。为了解决这个问题,我们利用AI美学评价模型在低美学异常生成图像加上异常属性标签,增强模型学习异常生成图像概念的能力,可以在推理阶段避免。



第四步:升级淘宝风格模型


目标:打造淘宝特色风格模型。风格标准的归纳:风格框架已经设定完成,内容量较大,将联动校企合作研究生,根据我们的要求逐步填充风格内容。

 风格的背景情况


  1. 目前风格选择的丰富性不足,生图的场景和人物集中在特定的几个类型上。原先对于风格的设定采用穷举的方式。如背景生成的场景基本上是泳池、花园、商场、海滩、森林、雪山。
  2. 因为原图本身的来源关系,图片的地域场景特色基本是西式。诸如东南亚的海滩、欧式花园、美式商场、美式泳池、北欧雪山。
  3. 因为采用穷举的方式,导致工具的选择项过多,体验比较复杂,商家使用过程中会选择困难,采用不断尝试的方式。


 风格的框架设定


  1. 对应美学标准的五大原则。进行细分的穷举,作为组合因子。
  2. 风格类型分为平台品牌风格、趋势热点风格、经典艺术风格三类。
  3. 基于风格趋向进行因子组合。形成风格的多元组合。


image.png


 风格标准的运用


基于前台AI产品进行风格应用。通过用户使用数据反馈,进行风格的排序与汰换。逐步累积商家需要的风格。

image.png


 后续计划


  1. 美学标准:发布淘宝AI美学标准,联动中国美术学院完成。
  2. 风格标准:风格化标准完善,建立淘宝独有的风格体系。同时在产品侧进行测试。
  3. 产品能力:发布 AI paas产品能力,联动千牛产品团队部署上线,提供给集团相关自研AI与第三方AI进行服务,也同步提升兼容性。


相关文章
|
5天前
|
人工智能 语音技术
通义语音AI技术问题之正则化DINO框架在说话人识别任务领域的应用如何解决
通义语音AI技术问题之正则化DINO框架在说话人识别任务领域的应用如何解决
12 0
|
3天前
|
人工智能 自然语言处理 搜索推荐
【人工智能】人工智能(AI)、Web 3.0和元宇宙三者联系、应用及未来发展趋势的详细分析
人工智能(AI)、Web 3.0和元宇宙作为当前科技领域的热门话题,它们之间存在着紧密的联系,并在各自领域内展现出广泛的应用和未来的发展趋势。以下是对这三者联系、应用及未来发展趋势的详细分析
11 2
【人工智能】人工智能(AI)、Web 3.0和元宇宙三者联系、应用及未来发展趋势的详细分析
|
4天前
|
人工智能 PyTorch 算法框架/工具
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
【8月更文挑战第6天】Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
|
3天前
|
机器学习/深度学习 人工智能 负载均衡
【AI大模型】分布式训练:深入探索与实践优化
在人工智能的浩瀚宇宙中,AI大模型以其惊人的性能和广泛的应用前景,正引领着技术创新的浪潮。然而,随着模型参数的指数级增长,传统的单机训练方式已难以满足需求。分布式训练作为应对这一挑战的关键技术,正逐渐成为AI研发中的标配。
22 5
|
3天前
|
人工智能 安全 机器人
AI在企业中的应用进入成熟期了吗?
AI在企业中的应用进入成熟期了吗?
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【模型微调】AI Native应用中模型微调概述、应用及案例分析
在AI Native应用中,模型微调是一个关键步骤,它允许开发者使用特定领域的数据对预训练模型进行二次训练过程,从而使其更好地适应特定任务或数据集。模型微调通过调整模型的参数,使模型在特定任务上达到更高的性能。这种技术广泛应用于自然语言处理、图像识别、语音识别等领域
9 1
|
3天前
|
机器学习/深度学习 数据采集 人工智能
【AI在金融科技中的应用】详细介绍人工智能在金融分析、风险管理、智能投顾等方面的最新应用和发展趋势
人工智能(AI)在金融领域的应用日益广泛,对金融分析、风险管理和智能投顾等方面产生了深远影响。以下是这些领域的最新应用和发展趋势的详细介绍
14 1
|
4天前
|
机器学习/深度学习 人工智能 算法
AI在医疗影像识别中的应用与实践
本文综述了人工智能在医疗影像分析的应用,涵盖了基础理论、操作流程、关键算法及实践案例。通过探讨卷积神经网络等技术,展示了如何构建医疗影像分析系统并提高诊断精度和效率,为医疗行业的创新发展提供了有力支持。
|
5天前
|
人工智能 文字识别 算法
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
15 4
|
6天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:AI在IT管理中的应用与挑战
当AI遇上IT运维,一场智能化的革命悄然开启。本文将带你一探究竟,看看AI如何改变着IT运维的面貌,提升效率的同时带来哪些前所未有的挑战。从自动化故障检测到预测性维护,再到安全防护的升级,我们将一步步揭开智能运维的神秘面纱。
18 4