视觉生产
- 定义
- 通过一个/一系列视觉过程,产出新的视觉表达
产出:人或机器能够感知的图像视频,而不是标签或特征;
要求:新的,和输入不一样的
- 分类
分类 | 解释 |
---|---|
生成 | 从0到1 |
拓展 | 从1到0 |
摘要 | 从N到1 |
升维 | 从An到An+1 |
增强/变换 | 从A到B |
插入/合成 | A+B=C |
擦除 | A-B=C |
- 通用框架
- 关键维度
维度 | 解释 | |
---|---|---|
1 | 可看 | 满足视觉/美学表现 |
2 | 合理 | 合乎语义/内容逻辑 |
3 | 多样 | 保证结果的丰富性 |
4 | 可控 | 提供用户预期的抓手 |
5 | 可用 | 带来用户/商业价值 |
精细理解
- 分割抠图
- 定义
- 1.识别:知道是什么
2.检测:识别+知道在哪儿
3.分割:识别+检测+知道每一个像素是什么
视觉分割是生产的必要前置步骤。唯能理解,方能生成。
- 难点
- 1.背景复杂 2.遮挡 3.发丝精抠 4.边缘反色 5.透明材质 5.多尺度
- 解题方法
- 1、复杂问题拆解:粗mask估计+精准matting
2、丰富数据样本:设计图像mask统一模型
- 模型框架
- STEP1:mask粗分割
STEP2:mask质量统一
STEP3:估计精确alpha
视觉生成
- 框架流程
- 视频生成/编辑
- 框架流程
- 视频摘要
镜头分割/语音识别-->动作识别/音画匹配-->镜头筛选,边界优化-->排序优化/音频剪辑-->视频合成
- 视频封面
可以对视频内容全自动完成质量审核、内容分析与图像增强,输出多帧静止或动图。
- 视频植入
挖掘视频核心价值
扩展广告曝光渠道,创新广告形式,提升用户体验。
扩大植入范围覆盖
自动化批量处理视频内容,挖掘海量短视频、UGC内容等的广告价值,扩大植入内容的覆盖面。
提升植入效果效率
取代手工后期,缩短植入周期,降低人力成本,给广告招商留出充足时间,且不需要修改与流出媒资。
视觉增强
- 单点核心技术
人脸增强,去噪声,通用场景超分,LDR升HDR,倍频,去划痕
- 复合应用技术
人脸修复,标清转高清,LDR-HDR互转,4K重生,(磁带)老片修复,端上实时增强
- 核心挑战
分辨率,帧率,色彩
视觉制造
- 核心逻辑
- 主要应用场景
服装几何生成、纹理图案迁移(3D)、视觉迁移及融合、多样性拓展、2D 3D背景融合
总结一手
在这个人工智能已经普及的时代,各行各业都充斥着AI的身影。音视频的剪辑衍生了许多新的机会与挑战。算法与框架无疑是开门钥匙,在对行业有较深的认知之后再进行学习便可事半功倍。