开发者学堂课程【视觉 AI 应用开发教程: 达摩院视觉 AI 技术应用探索(二)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/289/detail/3410
达摩院视觉 AI 技术应用探索(二)
三、视觉生成
1.视觉生成——鹿班
最开始使用的是鹿班,是视觉生成领域在业界落地的先行者,对外提供大规模在线的 AI 设计服务,累计设计平面图像20亿。
2.视觉生成——框架流程
首先理解所需要达到的要求,把需求提出来,达到一个可控的状态,再生成一个处理结果,然后再生成一个细腻度结果,然后调整这个细节,跟上述的分割是有一点反向,先进行细理解再结合起来做。
3.视觉生成——鹿班电商设计
多种设计模式
支持照图生图等指定类型的设计,将原图的风格、布局等信息学习并迁移到目标数据上。
多元风格
多元化设计风格,结合商品品类、投放场景、目标客群的差异进行订制化设计。
4.视觉生成——鹿班场景智能美工
AI实现场景设计能力:
1. 人工还原机器学习 JPG->PSD
2. 模板创作机器人 1PSD->100PSD
3. 图片合成机器人 PSD->PNG
5、视觉生成——鹿班行业设计
6.视觉生成——Alibaba Wood
AlibabaWOOD 短视频设计生成
累计生成:2000万+个
一键批量生成全店商品短视频:alibabawood.aliyun.com
剧本生成 智能文案生成 自动剪辑 智能音乐推荐
7.视频生成——框架流程
素材准备:镜头检测 场景识别 去重 去噪→美化 过滤 智能裁切 镜头分割
基础特效:主体检测 朝向检测 主色识别 显著性→ 缩放 平移 镜头裁切拼图效果
智能特效:节奏检测 图像分割 动作识别 特效推荐→ 静转动 氛围贴图 音画联动
8.视频生成——视频摘要
可以对视频内容全自动完成质量审核,内容分析和图像增强,输出多帧静止或动图
对一整段视频摘取其中一部分,例如15s,30s 等。或者摘取其中的一个画面,也即视频封面。
四、视觉编辑
1. 视觉编辑——视频植入
挖掘视频 扩大植入 提升植入
核心价值 留盖范围 效果效率
扩展广告曝光渠道,创新广告形式 提升用户体验。
自动化批量处理视频内容,挖规海量短视频 UGC 内容等的广告价值,扩大植入内容的覆盖面
取代手工后期,缴短德入周期,降低人力成本,给广告招商留出充足时间,且不需要修改与流出媒强。
电视剧植入 电影植入 综艺植入
例如需要将视频分析清楚,搞清楚哪里可以投放广告,投放多长的广告。广告是一个视频,物体不断运动,需要进行跟踪。
2. 视觉编辑——视频内容擦除
实用技术包括字母擦除,台标擦除,广告擦除,场景文字擦除和人体
擦除
核心挑战与亮点:粗定位→精分割→像素填充→在线训练
一大类是将视频中的字幕给去除,比如将陈旧的视频字幕去除,换成高清的字幕,优化用户体验。一大类是去除一些不想要的字幕。另一大类是擦除 logo。
五、视觉增强
1. 视觉增强——视频增强
单点核心技术:人脸增强,去噪音,通用场景部分,LDR 升 HDR,倍频,去划痕。
复合应用技术:人脸修复,标清转高清,LDR-HDR 互转,4K 重生,(磁带)老片修复,端上实时增强。
核心挑战:分辨率,帧率和色彩
核心网络模型持续创新
生成对抗技术和图像翻译技术相融合
大规模虚拟数据生成与真实数据交叉训练
隐式光流计算与多帧特征融合提升时域稳定性
2. 视觉增强——人脸修复增强
人脸是最重要的目标对象,对人像进行细节修复增强,有很重要的意义和价值。从低分辨率到高分辨率,还原信息。
3. 视觉增强——渲染图部分
CG 渲染时间几乎与图像分辨率成正比,高质量真实感渲染需要需要30分钟才能生产一张图像
针对 CG 渲染流水线研发的超分辨率技术可以把低分辨率图像放大到与高清原图一样的清晰度
用于动画渲染或者 cg 渲染的使用。
4. 视觉增强——视频部分
在刚开始看的时候,视频可能会比较模糊,通过此项技术,清晰度和视觉表现力得到大的提升。提高帧率,可以给用户更好的观感体验,如果帧率太低,在高速运动的场景下,卡顿感会很明显。这时就需要用到此技术,进行帧率增强,来优化视觉效果。
5. 视觉增强——HDR 色彩扩展
从上图中,可以看到通透感以及清晰度的增强。