视觉生产
定义:
通过一个或一系列视觉过程,产出新的视觉表达。
产出:人或机器能够感知的图像视频,而不是标签或特征。
要求:
新的,和输入不一样的
分类:
生成:0-1
扩展:1-N
摘要:N-1
升维:An-An+1
通用基础框架:
输入数据,通过请求发送到服务器,服务器通过生产类型进行分发。再由视觉生产引擎对其进行加工,再响应给用户。
五个关键维度:
可看,合理,多样,可控,可用
精细理解:
想要对视觉进行加工,需要对看到的东西有精细的理解
识别:知道是什么
检测:识别+知道在哪
只有理解了,才能进行生成
解题思路:
模型框架:
对模型进行分隔,进行mask粗分隔。而后再进行质量统一,最终估计精确统一,即可达成分隔效果。
物体抠图扩展:
分隔不是简单的和背景切除。还需要进行细节分析,例如车窗投影会反射到后面的景象,只有分隔出这些才能确实符合“精细分隔”要求。
视频生成
使用阿里动物园中的“鹿班”小动物可以实现视频生成技术。包含但不局限与视频特效,镜头分隔,语音识别等等等等。使用鹿班可以基础实现电商等大部分行业的商用短视频一键生成。
视频编辑
视频植入
适合于视频电影中植入某些物品广告,在不降低用户体验的情况下,在视频里插入广告。
对视频理解关键环节里,有对广告位检测,广告位跟踪,遮挡检测等功能。
对视频编辑还有其他功能,现如今已经可对视频进行无缝增删改。
————由于近期正在申请学校免听,准备入职,所以事情偏多,可能不能立即更新,未完待续,待我稳定了必定二刷三刷!