视觉AI大致分为两类:
- 视觉理解:检测,识别,分割
- 视觉生产(产生视觉):从一个视觉产出一个新的视觉表达。
视觉生产—分类
- 生成:从0到1
拓展:从1到N
摘要:从N到1
升维:从An到An+1
增强/变换:从A到B
插入/合成:A+B=C
擦除:A-B=C
视觉生产引擎:搜索或生成
视觉生产的五个维度:可看、合理、多样、可控、可用。
分割抠图:识别,检测,分割。
思路:
1、复杂问题拆解:粗mask估计+精准matting
2、丰富数据样本,设计图象mask统一模型。
视觉不仅仅包括图片还有视频,视频内容的增删改查。