一、定义和分类
-
视觉生产的定义分为两大类:
- 视觉理解:主要是检测、识别、分割等
- 视觉生产:就是如何去产生视觉,主要是通过一个或者一系列视觉过程,产出新的视觉表达。
产出:人或机器能够感知的图像视频,而不是标签或特征。
要求:新的,和输入不一样
由过去人为进行变为AI进行
-
视觉生产的分类
- 生成:从0到1
- 拓展:从1到N
- 摘要:从N到1
- 升维:从An到An + 1(图像由二维静态的视觉表达加入时间轴后,变为二维动态的视觉表达)
- 增强/变换:从A到B
- 插入/合成:A + B = C
- 擦除:A - B = C
- 通用基础框架
-
五个关键维度(保证结果)
- 可看:满足视觉/美学表现(基本)
- 合理:合乎语义/内容逻辑
- 多样:保证结果的丰富性
- 可控:提供用户预期的抓手
- 可用:带来用户/商业价值(最重要)
二、精细理解--寻微入理
如要生产一个视觉,首先需要理解视觉
-
分割抠图
- 识别:知道是什么
- 检测:识别 + 知道在哪儿
- 分割:识别 + 检测 + 知道没一个像素是什么
- 分割抠图--难点
-
分割抠图--解题思路
- 复杂问题拆解:粗mask估计 + 精准matting
- 丰富数据样本:设计图像mask统一模型
- 分割抠图--模型框架
三、视觉生成--从无到有
- 框架流程
- 照图生图(参考原图能够生成差不多的图)
- 人性化设计(为不同的人产生不同的结果)
- ALibabaWood
- 视频生成--框架流程
- 视觉生成--视频摘要
对视频进行剪辑,去需要的那块 - 视觉生成--视频封面
四、视觉编辑--移花接木
- 视觉编辑--视频植入
主要应用于广告,根据视频内容插入合适的广告
- 视觉编辑--视频内容擦除
- 视觉编辑--文字擦除
字幕的应用 - 视觉编辑--Logo擦除
- 视觉编辑--画幅变化
主题检测分割 + 背景拉伸 + 背景补全 + 智能构图裁剪 + 超分辨率 = 多保留50%有效画面 - 视觉编辑--图像尺寸变化
五、视觉增强--修旧如新
- 视频增加
- 人脸修复增强
- 渲染图超分
- 视频超分
- 视频插帧
- HDR色彩扩展
- 风格迁移
- 视觉迁移--颜色拓展
六、视觉制造--由虚入实
- 现有实体设计制造,效率低、协同差、定制难
- 核心逻辑
- 包装几何生成
- 材质工艺
- 视觉迁移及融合
- 多样性拓展
- 2D3D融合
七、视觉开放平台--万剑归宗
官网:视觉智能开发平台
注:本文由阿里云AI视觉训练营支持撰写