AI生图美学在淘宝的实践应用(2)

简介: AI生图美学在淘宝的实践应用



技术框架

  1. AIGC生图美学评价:根据设计师定义的5分美学准则,映射到五大质量等级。同时,我们对生成数据进行归纳分析,总结出五大属性,正常、人与背景融合度异常、手部异常、面部崩坏、躯体异常、其他异常。质量等级与属性原因组合形成美学评价提示词,作为多模态预训练模型的输入,损失函数采用美学分回归损失与属性原因多标签分类损失。
  2. 人模图原图美学评价:CLIP在美学评价上对图像质量、色彩、光照、构图、抽象概念等都具有很好的good/bad分类的zero-shot能力。因此,在预训练阶段,我们通过蒸馏CLIP的image encoder,提升backbone的美学表征能力。微调阶段使用提升后的backbone预测归一化后的美学评分。损失函数采用由L1损失和二分类交叉熵损失的加权,来提高模型的性能和鲁棒性。模型训练完成后,通过选取不同的阈值,能分层出不同美感级别的人模图片。


 测试阶段


基于测试情况,分析当前机器问题或者人的问题,可持续调优模型的准确率。在这个过程中不断进化调优。

  1. 调优通用性:在千牛平台上测试淘宝内部的【千牛智能模型】与淘宝外部第三方的模型。同类型的人模评测可兼容,但发现有较大的浮动。通过抓取具体图片问题时发现,上传的原图质量会对于准确率有影响。为保障公平需要制定测试图集的标准。
  2. 机器打分的真实性测试:准确率会每周产生一定的上下浮动,基于模型情况进行标准测试集的建设。运用1200张标准测试集进行AI与人工打分(考虑原图难易情况会对AI判断造成影响,测试集分为简单、中等、困难三个等级,占比1:1:1)。
  3. 机器打分的严谨性测试:调优后的打分模型,会对新全新生成的图片进行自动打分,并和人的打分进行比对。
  4. image.png


第三步:应用美学模型


目标:运用美学模型,提升淘宝AI大模型的良图率。



 美学模型1.0版本-应用AI生图评测能力:


  1. 目标:通过美学模型评测淘宝生成模型,对图片评分与画面问题的判定,对判定的图片问题进行修复。
  2. 判定能力:可针对图片进行(1-5分)打分,筛选良图与差图,指导模型后续的优化建议。
  3. 识别能力:目前可反馈5个关键画面属性。(1. 手部异常。2. 人与背景不融合。3. 脸部异常。4. 身体异常。5. 其他)。
  4. 修复能力:AIGC生成人物时画好的手一直是难点,人的手部自由度高且姿态复杂多变、图中占比小且细节多,导致画手的成功率不高。特别地,在实际业务中,由于用户上传的图片手部细节不明显或者手中拿着物品等复杂场景,在进行换模特换背景时,生成模型往往不能学到手部的准确细节特征导致画出不好的手。我们探索全新的手部修复技术方案。由 AI美学评价模型判断生成异常的手,对异常的手,利用3D手部状态重建模型保持正确的手指数量与手的形状,同时能够自适应生成图像中所需的手势。基于我们内部基底模型,融合Text Embedding,根据重建后的手部姿态重新绘制正常的手。经过反复调试参数和场景适配,我们的手部修复方案在业务数据上测试,修复成功率超过50%,可大幅度提高整体的生图良图率。手部修复的case如下:


image.png


 美学模型2.0版本-应用原图评测能力


  1. 目标:调优淘宝基地模型,目前有混杂的原图数据集,数据集质量参差不齐,需要进行有效的筛选优化。
  2. 背景:目前原图数据集来源核心是两部分:视觉中国和淘宝模特图。
    视觉中国的摄影图核心是供给给新闻稿做新闻配图,因此大量的图片为了营造故事性对人物和场景有独特的表达。淘宝模特图商家已经做了后期处理,有些诸如模特的处理已经比较夸张。

    image.png
  3. 筛选优质原图:通过原图判定模型,筛选优质摄影图,调优自研模型等数据集效果。提升生图的良图率。(如多人混乱、背景混乱,场景融合感等效果可提升)。
    收集专业摄影原图:目前通过设计团队搜集优质的摄影模特图。

  4. 1.0版本的AI美学评价模型影响生成模型,使生成模型自适应对齐人类偏好:AI美学评价可用于指导基于扩散的生成模型,不仅指导生成模型要生成高美学图像,也需要减少生成低美学图像的概率。为了解决这个问题,我们利用AI美学评价模型在低美学异常生成图像加上异常属性标签,增强模型学习异常生成图像概念的能力,可以在推理阶段避免。



第四步:升级淘宝风格模型


目标:打造淘宝特色风格模型。风格标准的归纳:风格框架已经设定完成,内容量较大,将联动校企合作研究生,根据我们的要求逐步填充风格内容。

 风格的背景情况


  1. 目前风格选择的丰富性不足,生图的场景和人物集中在特定的几个类型上。原先对于风格的设定采用穷举的方式。如背景生成的场景基本上是泳池、花园、商场、海滩、森林、雪山。
  2. 因为原图本身的来源关系,图片的地域场景特色基本是西式。诸如东南亚的海滩、欧式花园、美式商场、美式泳池、北欧雪山。
  3. 因为采用穷举的方式,导致工具的选择项过多,体验比较复杂,商家使用过程中会选择困难,采用不断尝试的方式。


 风格的框架设定


  1. 对应美学标准的五大原则。进行细分的穷举,作为组合因子。
  2. 风格类型分为平台品牌风格、趋势热点风格、经典艺术风格三类。
  3. 基于风格趋向进行因子组合。形成风格的多元组合。


image.png


 风格标准的运用


基于前台AI产品进行风格应用。通过用户使用数据反馈,进行风格的排序与汰换。逐步累积商家需要的风格。

image.png


 后续计划


  1. 美学标准:发布淘宝AI美学标准,联动中国美术学院完成。
  2. 风格标准:风格化标准完善,建立淘宝独有的风格体系。同时在产品侧进行测试。
  3. 产品能力:发布 AI paas产品能力,联动千牛产品团队部署上线,提供给集团相关自研AI与第三方AI进行服务,也同步提升兼容性。


相关文章
|
1月前
|
人工智能 IDE Java
AI Coding实践:CodeFuse + prompt 从系分到代码
在蚂蚁国际信贷业务系统建设过程中,技术团队始终面临双重考验:一方面需应对日益加速的需求迭代周期,满足严苛的代码质量规范与金融安全合规要求;另一方面,跨地域研发团队的协同效率与代码标准统一性,在传统开发模式下逐渐显现瓶颈。为突破效率制约、提升交付质量,我们积极探索人工智能辅助代码生成技术(AI Coding)的应用实践。本文基于蚂蚁国际信贷技术团队近期的实际项目经验,梳理AI辅助开发在金融级系统快速迭代场景中的实施要点并分享阶段性实践心得。
346 25
AI Coding实践:CodeFuse + prompt 从系分到代码
|
1月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
396 29
|
1月前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
1月前
|
数据采集 存储 人工智能
从0到1:天猫AI测试用例生成的实践与突破
本文系统阐述了天猫技术团队在AI赋能测试领域的深度实践与探索,讲述了智能测试用例生成的落地路径。
从0到1:天猫AI测试用例生成的实践与突破
|
1月前
|
人工智能 新制造
TsingtaoAI受邀参加宁波AI海曙科创训练营并分享技术落地实践
10月12日至15日,由宁波市海曙区组织部主办的AI海曙科创训练营在宁波成功举办。作为受邀企业代表,TsingtaoAI团队深入参与了多项活动,与政府领导、行业专家及科创企业代表围绕AI技术在制造业、成果转化等领域的实际应用展开交流,用真实案例诠释了“技术扎根产业”的价值逻辑。
81 2
|
1月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
301 1
|
1月前
|
存储 人工智能 前端开发
Qoder + ADB Supabase :5分钟GET超火AI手办生图APP
本文介绍如何利用Qoder、阿里云ADB Supabase和通义千问图像编辑模型,快速搭建AI手办生图Flutter应用。无需传统后端,实现从前端生成到数据存储、AI服务集成的全链路敏捷开发,展现Vibe Coding的高效实践。
Qoder + ADB Supabase :5分钟GET超火AI手办生图APP
|
1月前
|
人工智能 运维 关系型数据库
云栖大会|AI时代的数据库变革升级与实践:Data+AI驱动企业智能新范式
2025云栖大会“AI时代的数据库变革”专场,阿里云瑶池联合B站、小鹏、NVIDIA等分享Data+AI融合实践,发布PolarDB湖库一体化、ApsaraDB Agent等创新成果,全面展现数据库在多模态、智能体、具身智能等场景的技术演进与落地。
|
人工智能 自然语言处理 前端开发
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
淘宝推荐信息流业务,常年被“需求多、技术栈杂、协作慢”困扰,需求上线周期动辄一周。WaterFlow——一套 AI 驱动的端到端开发新实践,让部分需求两天内上线,甚至产品经理也能“自产自销”需求。短短数月,已落地 30+ 需求、自动生成 5.4 万行代码,大幅提升研发效率。接下来,我们将揭秘它是如何落地并改变协作模式的。
341 37
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
|
1月前
|
人工智能 缓存 运维
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
本文介绍联调造数场景下的AI应用演进:从单Agent模式到多Agent协同的架构升级。针对复杂指令执行不准、响应慢等问题,通过意图识别、工具引擎、推理执行等多Agent分工协作,结合工程化手段提升准确性与效率,并分享了关键设计思路与实践心得。
391 20
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
下一篇
oss云网关配置