视觉AI训练营-视觉生成技术

2020-11-27 1964

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 1. 视觉生产定义和分类 2. 精细理解 3. 视觉生成 4. 视觉编辑 5. 视觉增强 6. 视觉制造 7. 视觉开放平台（略）

视觉生产

- 定义

通过一个/一系列视觉过程，产出新的视觉表达

产出:人或机器能够感知的图像视频，而不是标签或特征;
要求:新的，和输入不一样的

- 分类

分类	解释
生成	从0到1
拓展	从1到0
摘要	从N到1
升维	从An到An+1
增强/变换	从A到B
插入/合成	A+B=C
擦除	A-B=C

视觉生产分类

- 通用框架

- 关键维度

维度	解释
1	可看	满足视觉/美学表现
2	合理	合乎语义/内容逻辑
3	多样	保证结果的丰富性
4	可控	提供用户预期的抓手
5	可用	带来用户/商业价值

精细理解

- 分割抠图

- 定义

1.识别：知道是什么
2.检测：识别+知道在哪儿

3.分割：识别+检测+知道每一个像素是什么

视觉分割是生产的必要前置步骤。唯能理解，方能生成。

- 难点

1.背景复杂 2.遮挡 3.发丝精抠 4.边缘反色 5.透明材质 5.多尺度

- 解题方法

1、复杂问题拆解:粗mask估计+精准matting
2、丰富数据样本:设计图像mask统一模型

- 模型框架

STEP1:mask粗分割
STEP2:mask质量统一

STEP3:估计精确alpha

视觉生成

- 框架流程

- 视频生成/编辑

- 框架流程

- 视频摘要

镜头分割/语音识别-->动作识别/音画匹配-->镜头筛选，边界优化-->排序优化/音频剪辑-->视频合成

- 视频封面

可以对视频内容全自动完成质量审核、内容分析与图像增强，输出多帧静止或动图。

- 视频植入

挖掘视频核心价值
扩展广告曝光渠道，创新广告形式,提升用户体验。
扩大植入范围覆盖
自动化批量处理视频内容，挖掘海量短视频、UGC内容等的广告价值，扩大植入内容的覆盖面。
提升植入效果效率
取代手工后期，缩短植入周期，降低人力成本，给广告招商留出充足时间，且不需要修改与流出媒资。

视觉增强

- 单点核心技术

人脸增强，去噪声，通用场景超分,LDR升HDR，倍频，去划痕

- 复合应用技术

人脸修复，标清转高清，LDR-HDR互转，4K重生，(磁带）老片修复，端上实时增强

- 核心挑战

分辨率，帧率，色彩

视觉制造

- 核心逻辑

- 主要应用场景

服装几何生成、纹理图案迁移（3D）、视觉迁移及融合、多样性拓展、2D 3D背景融合

总结一手

在这个人工智能已经普及的时代，各行各业都充斥着AI的身影。音视频的剪辑衍生了许多新的机会与挑战。算法与框架无疑是开门钥匙，在对行业有较深的认知之后再进行学习便可事半功倍。

视觉AI训练营-视觉生成技术

视觉生产

- 定义

- 分类

- 通用框架

- 关键维度

精细理解

- 分割抠图

- 定义