写在前面:
基于一般视觉效果的解读,我一直认为计算机对视图的解读是以像素为单位,帧度来微分解剖这个物理世界为像素世界,AI的应用是让计算机可以以人类的思维角度去解读世界,智能识别我想要的部分,并将其处理成我想要的效果。
视觉维度问题:
对标语言学习的正确性,可读性,健壮性,高效性。视觉AI对自身维度提出了5个的要求,可看(图片识别为人类可读),合理(正确的效果),多样(我理解为可以多形式使用,好比java的类继承),可控(可以改,健壮性),可用(可商业化,价值体现)
视觉AI的难点
在于分割抠图,由于数据自身样本容量要求大,标注成本过高,导致其开发成本高昂,进而对其商业化需求有高标准。
解题思路
1.复杂问题拆解:粗mask估计+精准matting
2.丰富的数据样本:设计图象mask统一