视觉生产技术
定义和分类
视觉生产定义:
通过一个/一系列视觉过程,产出新的视觉表达。
- 产出:人或机器能够感知的图像视频,而不是标签或特征;
- 要求:新的,和输入不一样的;
分类:
- 生成:从0到1
- 拓展:从1到N
- 摘要:从N到1
- 升维:从An到An+1
- 增强/变换:从A到B
- 插入/合成:A+B=C
- 擦除:A-B=C
此系列的产品有:
通用基础框架
五个关键维度
- 满足视觉/美学表现:可看
- 合乎语义/内容逻辑:合理
- 保证结果的丰富性:多样
- 提供用户预期的抓手:可控
- 带来用户/商业价值:可用
精细理解
分割切图
视觉分割是生产的必要前置步骤。只有理解了,才能生成。
识别:知道是什么
检测:识别+知道在哪里
分割:识别+检测+知道每一个像素是什么
难点:
- 复杂背景
- 遮挡
- 发丝精抠
- 边缘反色
- 透明材质
- 多尺度/目标
主要来说:数据严重不足,标注成本高
解题思路:
- 复杂问题拆解:粗mask估计+精准 matting
- 丰富数据样本:设计图像mask统一模型
模型框架:
效果展示:
人像抠图拓展
物体抠图拓展
场景抠图拓展
以上都是抠图加场景
视觉生成
鹿班
框架流程
电商设计
智能美工
行业设计
AlibabaWood短视频生成
框架技术:
视频摘要:
视频封面:
视觉编辑
视频植入:
植入位检测与定位、动态检测分割
视频内容擦除:
包括文字擦除、Logo擦除、去掉台标、去掉广告
画幅变化:
图像尺寸变化:
视觉增强
人脸是最重要的目标对象,对人像进行细节修复增强,有很重要的意义和价值。
- 人脸修复增强
- 渲染图超分
- 视频超分
- 视频插帧
- HDR色彩扩展
风格迁移:
颜色拓展:
视觉制造
实体制造:
数字制造:
- 包装几何生成
- 服装几何生成
- 材质工艺
- 视觉迁移及融合
- 多样性拓展
- 2D3D融合
视觉开发平台
定位:
能力分布:
特点:
能力选择:
普惠: