当达摩院大牛学会抠图,这一切都不受控制了……

简介: 从达摩院宣布成立起,这个阿里的“神秘机构”就备受外界关注。高端,神秘,这些标签也让我们对达摩院的技术专家产生了好奇。在他人眼中,达摩院大多是奇人异士,做着神秘且高端的研究,如扫地僧一般的存在,但是如果有一天,当神秘专家不再神秘,你发现他们也开始玩抠图,且这一切都朝着不受控制的方向发展。那么抠图他们能玩出哪些花样?

​从达摩院宣布成立起,这个阿里的“神秘机构”就备受外界关注。高端,神秘,这些标签也让我们对达摩院的技术专家产生了好奇。

在他人眼中,达摩院大多是奇人异士,做着神秘且高端的研究,如扫地僧一般的存在,但是如果有一天,当神秘专家不再神秘,你发现他们也开始玩抠图,且这一切都朝着不受控制的方向发展。那么抠图他们能玩出哪些花样?

你看看,万物皆可抠!
gif图片.gif

部分图片来源淘宝商品图

我们为什么要开始研究抠图?

这要从阿里巴巴智能设计实验室自主研发的一款设计产品鹿班说起。鹿班的初衷是改变传统的设计模式,使其在短时间内完成大量banner图、海报图和会场图的设计,提高工作效率。商家上传的宝贝图参差不齐,直接投放效果不佳,通过鹿班制图可以保证会场风格统一、高质视觉效果传达,从而提升商品吸引力和买家视觉体验,达到提升商品转化率的目的。而在制图的过程中,我们发现商品抠图是一项不可避免且繁琐的工作,一张人像精细抠图平均需要耗费设计师2h以上的时间,这样无需创意的纯体力工作亟需被AI所取代,我们的抠图算法应运而生。

近几年图像抠图算法逐渐进入人们的视野。而潜藏在其背后的行业:泛文娱,电商行业、垂直行业,诸如在线餐饮、媒体、教育等行业商业价值不容小觑,可以满足各种战报、在线课程教师抠图、视频封面制作等不同形式的图片制作需求拓展。市面上的一些抠图算法效果在人像发丝细节处理均不是很好,且对一些通用场景(电商等)支持也不是很好。我们针对这两个问题一方面设计更具有泛化能力的系统、一方面深化发丝和高度镂空相关算法,均有更好的效果。

遇到的难题和解决方案

我们最开始在上手鹿班“批量抠图”需求时,发现用户上传的图像质量、来源、内容五花八门,想用一个模型实现业务效果达到一劳永逸很难。在经过对场景和数据的大量分析后,定制整体框架如下:

2.jpg

主要涵盖了过滤、分类、检测、分割四个模块:

过滤:滤掉差图(过暗、过曝、模糊、遮挡等),主要用到分类模型和一些基础图像算法;

分类:瓶饮美妆等品类商品连通性比较好,3C、日用、玩具等品类则反之,另外场景(如人头、人像、动物)需求也是各具差异,故而设计不同的分割模型提升效果;

检测:在鹿班场景用户数据多来自于商品图,很多是经过高度设计的图像,一图多商品、多品类、主体占比小,也不乏文案、修饰、logo等冗余信息,增加一步检测裁剪再做分割效果更精准;

分割:先进行一层粗分割得到大致mask,再进行精细分割得到精确mask,这样一方面可以提速,一方面也可以精确到发丝级;

如何让效果更精准?

目前分类、检测模型相对比较成熟,而评估模型则需要根据不同场景做一些定制(电商设计图、天然摄影图等),分割精度不足,是所有模块中最薄弱的一个环节,因此成为了我们的主战场。详述如下:

分类模型:分类任务往往需要多轮的数据准备,模型优化,数据清洗才能够落地使用。据此,我们设计完成了一个自动分类工具,融合最新的优化技术,并借鉴autoML的思想,在有限GPU资源的情况下做参数和模型搜索,简化分类任务中人员的参与,加速分类任务落地。

评估模型:直接使用回归做分数拟合,训练效果并不好。该场景下作为一个前序过滤任务,作为分类问题处理则比较合理。实际我们也采用一些传统算法,协助进行过暗、过曝等判断。

检测模型:主要借鉴了FPN检测架构。

对特征金字塔每一层featuremap都融合上下相邻层特征,这样输出的特征潜在表征能力更强;
特征金字塔不同层特征分别预测,候选anchors可增加对尺度变化的鲁棒性,提升小尺度区域召回;
对候选anchor的设定增加一些可预见的scale,在商品尺寸比例比较极端的情况下大幅提升普适性;

分割融合模型:

参考论文:
http://openaccess.thecvf.com/content_CVPR_2019/html/Zhang_A_Late_Fusion_CNN_for_Digital_Matting_CVPR_2019_paper.html

与传统的只需要分别前景、背景的图像分割(segmentation)问题不同,高精度抠图算法需要求出某一像素具体的透明度是多少,将一个离散的0-1分类问题变成[0, 1]之间的回归问题。

在我们的工作中,针对图像中某一个像素p,我们使用这样一个式子来进行透明度预测:

1.png

1.png
4.jpg

右图中红色部分即是被前背景概率包住的像素

融合网络:由数个连续卷积层构成,它负责预测混合权重。注意,在图像的实心区域,像素的前背景预测往往容易满足这一条件,此时对求导恒为0,这一良好性质令融合网络在训练时可以自动“聚焦”于半透明区域。

应用产品化开放

得以商业应用的基础是我们在应用层单点能力,如人像/人头/人脸/头发抠图、商品抠图、动物抠图,后续还会逐步支持卡通场景抠图、服饰抠图、全景抠图等。据此我们也做了一些产品化工作,如鹿班的批量白底图功能、E应用证件照/战报/人物换背景(钉钉->我的->发现->小程序->画蝶)等。

鹿班的批量白底图功能:
https://luban.aliyun.com/web/gen-next/config?tag=cutout&title=%E6%89%B9%E9%87%8F%E7%99%BD%E5%BA%95%E5%9B%BE
试用地址:
https://ivpd.console.aliyun.com/api-image
接入说明:
https://help.aliyun.com/document_detail/139269.html
商务合作咨询请戳链接:
https://page.aliyun.com/form/act854786621/index.htm

目录
相关文章
|
2月前
|
人工智能 机器人 网络安全
2026年阿里云OpenClaw快速部署教程:一键创建专属AI助手!
本文将详细介绍阿里云OpenClaw快速部署教程,手把手教你一键创建专属AI助手!
263 2
|
3月前
|
人工智能 弹性计算 安全
2026阿里云无影云电脑入口及技术特性、场景适配与综合体验测评
在终端云计算快速发展的当下,阿里云无影云电脑凭借自主技术架构与多场景适配能力,成为企业数字化办公与个人高效计算的重要选择。下面从官方入口与版本差异、核心技术特性、性能表现、场景适配、安全能力等维度展开测评,为用户提供客观参考。
|
5月前
|
人工智能 弹性计算 安全
阿里云App SSH 工具更新体验
阿里云App SSH工具近期更新,带来UI优化、快捷命令、AI助手及横屏支持。操作更便捷,手机运维效率显著提升,尤其适合阿里云用户与命令不熟者,实用性强。
356 1
|
4月前
|
数据库 索引
索引创建的原则
创建索引需遵循六大原则:针对数据量大、查询频繁的表;在常用作查询、排序、分组的字段上建索引;优先选择区分度高或唯一的字段;varchar字段建议使用前缀索引;尽量创建联合索引,高区分度字段前置;避免过多索引,以降低维护成本,提升查询效率。
|
Linux 数据安全/隐私保护
Linux基础命令---put上传ftp文件
put 使用lftp登录ftp服务器之后,可以使用put指令将文件上传到服务器。 1、语法 put [-E] [-a] [-c] [-O base] lfile [-o rfile] 2、选项列表 -o 指定输出文件的名字,不指定则使用原来的名字 -...
8759 0
|
9月前
|
存储 监控 Java
如何对迁移到Docker容器中的应用进行性能优化?
如何对迁移到Docker容器中的应用进行性能优化?
564 59
|
9月前
|
数据安全/隐私保护 计算机视觉 Python
一键生成眨眼照片app,一键生成眨眼照片,秒解人脸识别软件
这段代码使用了dlib的人脸检测和关键点定位功能来识别眼睛区域,然后通过图像处理技术模拟眨眼效果
|
监控 关系型数据库 MySQL
性能调优:避免SELECT *,仅查询需要的字段减少数据传输
在数据库性能调优中,`SELECT *`虽简便但不推荐。它会增加数据传输开销、降低查询优化器效率、影响代码可维护性,并可能成为性能瓶颈。明确指定查询字段能显著减少数据传输量、提升响应速度、优化执行计划并提高代码质量。通过实际案例对比,优化后的查询可减少60%的数据传输量,缩短40%的响应时间。建议养成明确字段查询的习惯,避免性能问题。
623 54
|
运维 负载均衡 数据可视化
零门槛、低成本或无成本、轻松部署您的专属DeepSeek-R1 满血版4种解决方案
宏哥在仔细阅读了所有评测报告后,发现视频演示较少,因此决定制作一个涵盖四种部署方案的视频教程及评测。视频更加直观,便于用户理解。
508 2
|
前端开发 API
《OpenGL编程指南(原书第9版)》——2.8 SPIR-V
本节书摘来自华章计算机《OpenGL编程指南(原书第9版)》一书中的第2章,第2.8节,作者:(美)约翰·克赛尼希(John Kessenich)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
5838 0