1.视觉生产技术分类
生成:从无到有。
拓展:已经存在,拓展到更多。
摘要:浓缩在一起,提取出重要的部分。
升纬:比如图像为2D,加上时间轴,就是2D加t。也 可以是2D变3D。
增强/变换:一张图通过增强或者变换得到另一张图。
插入/合成:两张图合成或者一张图插入一些内容。
擦除:就是去除一些内容。
2.视觉生产—通用基础框架
截屏2020-09-24 上午11.25.47.png
3.五个关键纬度
可看:满足美学表现。
合理:符合逻辑和语义。
多样:结果丰富多样。
可控:用户提供参数可控结果。
可用:可以实际应用。
4.分割
想要进行视觉生产最基础的就是分割。分割分为三步,第一步是识别需要知道这张图是什么?第二步,检测需要知道问题和处理的地方在哪?第三步就是分割,知道每个像素都是些什么东西,分割的难点在于数据不足,标注成本高。
分割大概有三种,第一是语义分割知道他是什么类型的,比如知道一张图片里面这是一个人。第二个是实例分割,比如知道那个人是谁?第三个是Matting。对于一些较难的复杂问题,一般进行拆分方法先粗mask估计,然后再精准的maltting。
5.视觉生成
除了分割,还有从无到有即视觉生成,比如有视频摘要,将视频中的重要部分选出来。视觉编辑,即可以在视频中加入植入等,其它的还有动态分割,将视频中指定的物品配出来、视频内容擦除,比如擦掉模糊的字幕,logo等。还有画幅变化、图像尺寸变化等。
6.视觉增强
视频增强、人脸修复、视频插帧、HDR色彩扩展、风格迁移、颜色拓展等。
7.视觉制造
几何生成,和传统工业相结合、视觉迁移、多样性拓展等
以短视频设计生成平台——为例
框架流程
1、 准备素材(场景选择、关联商品、素材准备、参数设置)
2、 视频算法(可以使用编辑器微调。核心)
3、 渲染合成(将已编排好的视频进行视频合成后渲染出成品)
4、 投放上传平台
视频摘要
将生成的视频或原已有的视频或多个视频进行关键摘要(如15秒摘要,30秒摘要,60秒摘要等)
视频封面
图像增强:在内容理解的基础上对图片进行裁剪和组合。
内容分析:通过AI的分析功能来对全视频进行内容分析和挑选。
质量审核:将模糊、曝光等低质量图像进行过滤。
完成以上一系列操作后来抓取生成多帧静止图或动图。随后可以进行各个平台的分发。
视觉编辑
视频植入
PS:我个人认为这个功能比较有意思
场景:电视剧植入、电影植入、综艺植入等。
可以将广告内容与宿体内容本身不太符合的广告以没有太多【违和感】的形式植入,使广告的植入范围变得更广,大大提升了广告的植入效率,并且不会给用户造成太大的反感。