视觉生产
定义:通过一个/一系列视觉过程,产出新的视觉表达。
输入->视觉生产过程=>产出
分类:生成,拓展,摘要,升维,增强,合成,擦除。
通用基础框架:输入=>生产类型=>视觉生产引擎=>输出图像/视频
五个关键维度:1.可看 2.合理 3.多样 4.可控 5.可用
精细理解
过程:1.识别2.检测3.分割
分割难点:复杂背景,遮挡,发丝精抠,边缘反色,透明材质,多尺度/目标
抠图解题思路:1.复杂问题拆解(粗mask估计+精准matting)2.丰富数据样本(设计图像mask统一模型)
视觉生成
框架流程
视频理解关键环节:广告位检测,广告位跟踪,遮挡检测
视频内容擦除:粗定位=>精分割=>像素填充=>在线训练