视觉生产技术
1. 定义和分类
1.1 视觉生产——定义
-
视觉一般分为两大类
- 视觉理解:检测、识别、分割等等
-
视觉生产:怎么产生视觉【通过一个/一系列视觉过程,产出新的视觉表达】
- 产出:人或机器能够感知的图像视频,而不是标签或特征
- 要求:新的,和输入不一样的
1.2 视觉生产——分类
- 生成:从0到1
- 拓展:从1到N
- 摘要:从N到1
- 升维:从An到An+1
- 增强/变换:从A到B
- 插入/合成:A+B=C
- 擦除:A-B=C
1.3 视觉生产——通用基础框架
1.4 视觉生产——五个关键维度
- 满足视觉/美学表现
- 合乎语义/内容逻辑
- 保证结果的丰富性
- 提供用户预期的抓手【可控】
- 带来用户/商业价值【可用】
2. 精细理解——寻微入里
人要先认知世界才能再改造世界
2.1 精细理解——分割抠图
- 识别:知道是什么
- 检测:识别 + 知道在哪儿
- 分割:识别 + 检测 + 知道每一个像素是什么
视觉分割是生产的必要前提步骤
唯能理解,方能生成
2.2 分割抠图——难点
- 复杂背景
- 遮挡
- 发丝精抠、
- 边缘反色
- 透明材质、
- 多尺度/目标
数据严重不足,标注成本高
2.3 分割抠图——解题思路
- 复杂问题拆解:粗mask设计 + 精准matting
- 丰富数据样本:设计图像mask统一模型
2.4 分割抠图——模型框架
2.5 分割抠图——人像抠图
2.6 分割抠图——物体抠图
由于每个图的细节等有所不同,所以想用一个model实现分割所有的图是不太可能的
2.7 分割抠图——场景抠图
3. 视觉生成——从无到有
3.1 视觉生成——框架流程
3.2 视觉生成——电商设计
-
照图生图
- 参考原图,将风格、布局等信息学习并迁移到目标数据上
-
个性化设计
- 多元化设计风格,结合商品品类、投放场景、目标客群的差异进行定制化设计
3.3 视觉生成——场景智能美工
- IN:营销场景 + 原始素材
- OUT:营销图片
- 调用方式:API
3.4 视觉生成——AlibabaWood
- 一键生成短视频:https://alibabawood.aliyun.com/
3.5 视觉生成——框架流程
4. 视觉编辑——移花接木
4.1 视频植入
- 目前大部分广告都是与内容无关的,对用户不太友好,视频植入手段可将广告植入到视频中,提升用户体验
4.2 视觉编辑——植入位检测与定位
4.3 视觉编辑——动态检测分割
- 单独分割
- 遮挡关系等
4.4 视觉编辑——视频内容擦除
4.5 视觉编辑——文字擦除
4.6 视觉编辑——画幅变化
4.7 视觉编辑——图像尺寸变化
- 在不同场合图像尺寸可以自动变化
5. 视觉增强——修旧如新
5.1 视觉增强——视频增强
5.2 视觉增强——人脸修复增强
- 人脸是最重要的目标对象,对人像进行细节修复增强,有很重要的意义和价值
- eg:老照片修复
5.3 视觉增强——渲染图超分
- CG渲染时间几乎与图像分辨率成正比,高质量真实感渲染需要30分钟才能产生一张图像
- 针对CG渲染流水线研发的超高分辨率技术可以把低分辨率图像放大到与高清原图一样的清晰度
5.4 视觉增强——HDR色彩扩展
5.5 视觉增强——风格迁移
5.5 视觉增强——颜色拓展
6. 视觉制造——由虚入实
6.1 实体设计制造
- 效率低:多次打样,多次沟通
- 协同差:设计、营销、生成脱节、倒置
- 定制难:无法实现柔性生产
6.2 视觉制造——核心逻辑
6.3 视觉制造——几何生成
- 包装几何生成
- 服装几何生成
6.4 视觉增强——材质工艺
6.5 视觉增强——视觉迁移及融合
6.6 视觉制造——多样性拓展
6.7 视觉制造——2D 3D融合
7. 视觉开放平台——万剑归宗
- 官网:vision.aliyun.com