达摩院视觉AI助力商家制作海量双十一宣传海报

简介: 从达摩院宣布成立起,这个阿里的“神秘机构”就备受外界关注。造福人类,世界第一,高端,神秘……这些标签也让我们对达摩院的技术专家产生了好奇。今天就给大家揭秘下大牛们在用的抠图能力!~

从达摩院宣布成立起,这个阿里的“神秘机构”就备受外界关注。造福人类,世界第一,高端,神秘……这些标签也让我们对达摩院的技术专家产生了好奇。

在外界人眼中,达摩院人才济济,大多是奇人异士,做着神秘且高端的研究。不曾想,这群有如扫地僧一般的神秘专家们竟然做了一个百宝箱——阿里云视觉智能开放平台(vision.aliyun.com),将研究出来的各种人脸识别,图像识别等视觉AI能力都开放了出来!打开百宝箱可以看到他们已经做了人脸识别,文字识别,商品理解,内容安全,图像识别,图像增强,图像分割,目标检测等140+种视觉AI能力,全都可以通过API的形式调用!就拿其中一项来说你会发现大牛们用图像分割的视觉AI能力,把抠图玩转得炉火纯青,而且这一切都朝着不受控制的方向发展了......

你看看,万物皆可抠!
1.gif

部分图片来源淘宝商品图

达摩院大牛们为什么要开始研究抠图?

这要从阿里巴巴智能设计实验室自主研发的一款设计产品鹿班说起。鹿班的初衷是改变传统的设计模式,使商家在短时间内完成大量banner图、海报图和会场图的设计,提高工作效率。并且通过鹿班制图可以、传达高质视觉效果,从而提升商品吸引力和买家视觉体验,达到提升商品转化率的目的。而在制图的过程中,商品抠图是一项不可避免且繁琐的工作,一张人像精细抠图平均需要耗费设计师2h以上的时间,这样无需创意的纯体力工作亟需被AI所取代,所以抠图算法应运而生。
近几年图像抠图算法逐渐进入人们的视野,如腾讯(天天P图)、百度(人像抠图、汽车分割)等。而潜藏在其背后的行业:泛文娱,电商行业、垂直行业,诸如在线餐饮、媒体、教育等行业商业价值不容小觑,可以满足各种战报、在线课程教师抠图、视频封面制作等不同形式的图片制作需求拓展。市面上的一些抠图算法效果在人像发丝细节处理均不是很好,且对一些通用场景(电商等)支持也不是很好。达摩院大牛们针对这两个问题一方面设计更具有泛化能力的系统、一方面深化发丝和高度镂空相关算法,均有更好的效果。

遇到的难题和解决方案

最开始在上手鹿班“批量抠图”需求时,达摩院大牛们发现用户上传的图像质量、来源、内容五花八门,想用一个模型实现业务效果达到一劳永逸很难。在经过对场景和数据的大量分析后,定制整体框架如下:
2.jpg

主要涵盖了过滤、分类、检测、分割四个模块:

  • 过滤:滤掉差图(过暗、过曝、模糊、遮挡等),主要用到分类模型和一些基础图像算法;
  • 分类:瓶饮美妆等品类商品连通性比较好,3C、日用、玩具等品类则反之,另外场景(如人头、人像、动物)需求也是各具差异,故而设计不同的分割模型提升效果;
  • 检测:在鹿班场景用户数据多来自于商品图,很多是经过高度设计的图像,一图多商品、多品类、主体占比小,也不乏文案、修饰、logo等冗余信息,增加一步检测裁剪再做分割效果更精准;
  • 分割:先进行一层粗分割得到大致mask,再进行精细分割得到精确mask,这样一方面可以提速,一方面也可以精确到发丝级;

如何让效果更精准?

目前分类、检测模型相对比较成熟,而评估模型则需要根据不同场景做一些定制(电商设计图、天然摄影图等),分割精度不足,是所有模块中最薄弱的一个环节,因此成为了达摩院大牛们的主战场。以下是来自他们的自我阐述:‘’

  • 分类模型:分类任务往往需要多轮的数据准备,模型优化,数据清洗才能够落地使用。据此,我们设计完成了一个自动分类工具,融合最新的优化技术,并借鉴autoML的思想,在有限GPU资源的情况下做参数和模型搜索,简化分类任务中人员的参与,加速分类任务落地。
  • 评估模型:直接使用回归做分数拟合,训练效果并不好。该场景下作为一个前序过滤任务,作为分类问题处理则比较合理。实际我们也采用一些传统算法,协助进行过暗、过曝等判断。
  • 检测模型:主要借鉴了FPN检测架构。1、对特征金字塔每一层featuremap都融合上下相邻层特征,这样输出的特征潜在表征能力更强;2、特征金字塔不同层特征分别预测,候选anchors可增加对尺度变化的鲁棒性,提升小尺度区域召回;3、对候选anchor的设定增加一些可预见的scale,在商品尺寸比例比较极端的情况下大幅提升普适性;
  • 分割融合模型:参考论文http://openaccess.thecvf.com/content_CVPR_2019/html/Zhang_A_Late_Fusion_CNN_for_Digital_Matting_CVPR_2019_paper.html

与传统的只需要分别前景、背景的图像分割(segmentation)问题不同,高精度抠图算法需要求出某一像素具体的透明度是多少,将一个离散的0-1分类问题变成[0, 1]之间的回归问题。
在我们的工作中,针对图像中某一个像素p,我们使用这样一个式子来进行透明度预测:

α_p=β_p F ̅_p+(1-β_p ) 〖(1-B ̅〗_p)


其中F ̅_p和B ̅_p分别代表了这个像素属于前景和背景的概率,β_p是混合权重。我们的网络可整体分为两部分,分割网络和融合网络,如下图:
3.png

分割网络:我们使用了在图像分割任务中常用的编-解码器结构作为我们的基础结构,但与传统结构不同,我们的网络中使用了双解码器分别来预测前、背景概率F ̅_p 〖和B ̅〗_p。如果像素p在图像的实心区域(透明度为0或1),我们预测像素透明度的真实值;如果p在图像的半透明区域(透明度值在0到1之间),我们预测像素透明度真实值的上下界。通过在半透明区域使用加权的交叉熵损失函数,使F ̅_p 〖和B ̅〗_p的值相应升高,即可将透明度的真实值“包裹”在〖[1-B ̅〗_p 〖,F ̅〗_p]这一区间中。
4.png

右图中红色部分即是被前背景概率包住的像素
融合网络:由数个连续卷积层构成,它负责预测混合权重β_p。注意,在图像的实心区域,像素的前背景预测往往容易满足F ̅_p 〖+B ̅〗_p=1这一条件,此时α_p对β_p求导恒为0,这一良好性质令融合网络在训练时可以自动“聚焦”于半透明区域。“

结语:


你看,经过达摩院大牛们的深耕细作,抠图这么一件复杂的事儿,就轻轻松松的解决了。除抠图之外,其他视觉AI能力都沉淀在 阿里云视觉智能开放平台(vision.aliyun.com)上,其中也不乏像支付宝,天猫,淘宝这样的巨星级应用的精品视觉AI能力,为广大用户提供好用、易用、普惠的视觉智能API服务。技术与应用相互作用,最后沉淀更替,集合在这一小小宝箱中,目前平台免费开放140+种AI能力的调用权限,别犹豫啦,快来体验吧!

在线免费体验百种AI能力:【点此跳转】


钉钉扫描下方二维码,进群免费对接百种AI能力

一群二维码.jpg

相关文章
|
12月前
|
人工智能 计算机视觉
HarmonyOS NEXT AI基础视觉服务-背景替换
这是一个基于AI基础视觉服务的背景替换案例,通过调用设备相册选择图片并智能分割主体,支持动态更换背景颜色。主要步骤包括:1) 导入模块与定义组件;2) 实现图片选择与格式转换;3) 使用`subjectSegmentation.doSegmentation`接口完成主体分割;4) 通过随机RGB值实现背景色动态更换。代码结构清晰,功能完整,适合学习AI图像处理技术。
HarmonyOS NEXT AI基础视觉服务-背景替换
|
12月前
|
存储 人工智能 数据安全/隐私保护
HarmonyOS NEXT AI基础视觉服务-人脸对比
这是一套基于AI基础视觉服务实现的人脸对比系统,用户可通过调用设备相册选择两张图片,系统将提取人脸特征并计算相似度,最终以结构化数据形式展示对比结果(如相似度值和是否为同一人)。代码涵盖模块导入、双图选择、图像处理、人脸对比核心逻辑及UI界面构建,支持异常处理与权限管理,确保功能稳定性和兼容性。适配场景包括身份验证、人脸匹配等,具有较高的实用价值。
HarmonyOS NEXT AI基础视觉服务-人脸对比
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
470 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
12月前
|
人工智能 计算机视觉
HarmonyOS NEXT AI基础视觉服务-人脸识别
这是一个基于AI基础视觉服务的人脸识别案例,通过调用设备相册选择图片,利用MediaLibraryKit、ImageKit和CoreVisionKit等模块完成图像处理与人脸检测,并展示结构化结果。核心功能包括:相册访问授权、图像数据转换、人脸位置及特征点检测,最终以弹窗形式输出检测信息。代码涵盖模块导入、功能实现与UI构建,适合学习AI视觉应用开发流程。
|
7月前
|
人工智能
【千问海报大赛·地方风物】创意征集令!用AI解锁家乡新名片,万元奖金等你来战!
用Qwen-Image打破常规!将家乡的地标、方言、美食或热梗,通过错位混搭(赛博山水×古风建筑?霓虹城市×传统小吃?)或风格化创作(复古卡通、漫画方言…)焕发全新视觉冲击力!
319 10
|
12月前
|
人工智能 文字识别 计算机视觉
HarmonyOS NEXT AI基础视觉服务-文字识别
本案例展示了一款基于AI基础视觉服务的文字识别应用,通过调用设备相机拍摄照片并识别图片中的文字内容。主要实现步骤包括:1) 导入所需功能模块;2) 调用相机获取图片URI;3) 将图片转换为可识别的像素图;4) 配置视觉识别参数并执行文字识别;5) 构建界面组件,实现拍照与结果显示交互。核心要点涵盖相机权限、图像格式兼容及结构化识别结果处理,完整代码整合了各功能模块的调用流程,确保功能顺畅运行。
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
在电商中,制作精美的商品展示图成本高且流程复杂。AI 换装技术允许商家快速更换模特的服装或配件,无需重新拍摄,大大缩短准备时间。这项技术减少了对专业摄影师和后期团队的依赖,使中小商家也能轻松产出高质量的商品图片,灵活响应市场变化,有效降低成本,提升竞争力。本方案利用函数计算 FC 构建 Web 服务,采用百炼视觉模型 qwen-vl-max-latest、aitryon、aitryon-refiner、shoemodel-v1 来分别实现 AI 人物主体信息提取、模特试衣、试衣精修、模特换鞋。
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
有奖体验 AI 模特换装,解锁电商视觉新体验
有奖体验 AI 模特换装,解锁电商视觉新体验
|
5月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1378 56
|
5月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
665 30

热门文章

最新文章