达摩院视觉AI技术应用探索
此文章链接:https://tracytangyc.github.io/2020/0924_aliyun-visual-ai-class1/
简介与理解
1.定义
视觉AI的工作有两大部分:理解与生产。后者涉及三个步骤——一、输入参数或素材;二、过程中生产视觉;三、产出素材或成品。
-
理解
进行图像检测、分割等。
-
生产
产生新的(和输入不一样的)视觉表达,相当于以技术实现设计师、美工等用PS完成的工作过程。
视觉表达是人或机器能够感知的图像视频,不是用于机器学习的标签或特征。
2.分类
视觉生产的种类很多,以下以简单的方式抽象叙述:
-
分割
语义/全景/抠图
-
生成
制造/摘要/封面 从0到1
-
拓展
从1到N
-
摘要
从N到1
-
升维
从An到An+1
-
增强、变换
超分/色彩/帧率 从A到B
-
编辑
植入/擦除/互换 A-B=C
-
插入、合成
A+B=C
以上技术的成熟产品有:鹿班、画蝶、视觉智能开放平台等,分别为公共或专有云、客户端应用等
而他们处理的内容有:
- 3D
- 视频
- 图像
通用基础框架
- 请求 Request
输入参数、素材、草案、成品、案例 -
分发 Dispatch
生产不同类型:- 通用生成 General - 素材合成 Assemble - 照图生图 Imitate - 视频摘要 Summary - 编辑变换 Edit - 视觉拓展 Extend
-
服务 Service
使用视觉生产引擎- 生成引擎(模型与知识) - 搜索引擎(素材与案例)
-
响应 Response
- 输出图像/视频/3D 素材、成品、案例
五个关键维度
要把视觉生产技术投入工业应用,应当达到以下标准:
- 可看——满足视觉/美学表现
- 合理——合乎语义/内容逻辑
- 多样——保证结果的丰富性
- 可控——提供用户预期的抓手
- 可用——带来用户/商业价值
视觉理解
视觉理解有以下过程:
- 识别——知道是什么(人?物?)
- 检测——识别+知道在哪(缺陷检测、多目标检测等)
-
分割——识别+检测+知道每一个像素是什么
分割的步骤非常重要,体现在分离复杂的背景和各种遮挡关系,或者提取发丝、镂空等部分。这项工序标注成本高且随精度成倍上升、数据需求量大。
分割抠图
解题思路:拆解复杂问题为粗mask估计和精准mapping;设计丰富数据样本作为统一模型
成果:可达到分割人的头像、头发、人脸等静态分割;人物、动物、车辆、商品、动画等视频动态分割;天空、人物、物体等场景分割,并调整粒度。
视觉生成
1.鹿班
鹿班是一项针对平面图像设计生成的大规模在线AI设计服务,源于阿里巴巴内部,逐渐对外提供服务。包括理需求、定草图、选状态、调戏节、生成图、评好坏的完整流程。鹿班始用于电商,依靠“照图生图”和“个性化设计”,配合AI场景设计能力,进行高效、低成本、美观的场景智能美工。
2.视觉生成AlibabWood
AlibabWood专注于短视频生成,同时具有剧本生成、智能文案、自动简介、智能音乐推荐等功能,完成素材准备、基础特效、智能特效、智能编排四大业内需求。
3.视频摘要与封面
视频摘要(封面生成)包括质量审核、内容分析、图像增强、输出多帧静止图或动图
视觉编辑
1.视频植入
例如插入广告等原视频没有的片段。当中需要进行广告位检测、跟踪、避免屏幕内容遮挡、移位等,并匹配视频细节、光影渲染等,有利于大大挖掘视频价值、扩大植入范围、提高制作效率。
2.内容擦除
例如字幕、台标、广告等擦除,基于精确的视觉分割技术。
3.尺寸变化
需要适配视频画幅比例改变而进行裁剪或补全,改变构图,进行自动化图像(海报等)多尺寸设计。
视觉增强
实例
- 人脸修复:突出主要特征信息
- 渲染图或视频超分:用于CG,渲染低分辨率图后用AI技术放大成高清图,降低渲染时间
- 视频插帧:减少运动场景的视频晃动、在线视频的卡顿感
- HDR色彩扩展:增强视觉效果,提升广告等视频表达语义的能力
- 风格迁移与颜色拓展:例如名画滤镜等
视觉制造
融合虚实画面,提升生产(打样、沟通)效率、协同性(设计、营销、生成的配合)、定制化(柔性生产)。并结合2D、3D估计、渲染等生成技术。
视觉智能开放平台
网址:vision.aliyun.com
该平台聚合阿里巴巴的图像、视频、3D图形视觉原子能力,提供云上智能API,向广大开发者提供服务,有上百种细分能力,供应链、基础设施、部署场景、定制化服务齐全。