视觉AI训练营第一天
视觉生产技术探索和应用
(一)定义和分类
视觉理解,比如识别、检测、分割等;
视觉生产,也可以理解为怎么去产生视觉,指通过一个/ 一系列视觉过程,产出新的视觉表达。
我们希望通过技术实现过去由人工来完成的过程。
(二)主要应用
视觉生产主要包括生成、拓展、摘要、升维,另外还有增强/ 变换、插入/ 合成、擦除等。达摩院在该领域已经投入了很多人力和精力,也形成了一些产品,比如鹿班、画蝶、视觉智能开放平台等。
(三)通用基础框架
一般逻辑为,请求(Request)、分发(Dispatch)、服务(Service)和响应(Response)四大部分。
深入理解视觉生产——视觉分割
思路:
1.复杂问题拆解:粗mask估计+精准matting
2.丰富数据样本:设计图像mask统一模型
探索视觉生成
分析鹿班场景智能美工(平面),AlibabWood(短视频)的框架流程,在各个行业的应用都会产生不同的效果,依据场景来进行赋能。
其他视觉技术
1.视觉编辑:主要包括增删查改等功能
2.视觉增强:对视频的内容进行一些改变,以达到视频某些方面的改善效果。
3.视觉制造:我们可以利用视觉制造技
术来解决实际生产过程中面临的效率低、协同差、定制难等问题。
视觉智能开放平台
阿里巴巴的视觉智能开放平台(vision.aliyun.com)