达摩院视觉 AI 技术应用探索（二）|学习笔记-阿里云开发者社区

达摩院视觉 AI 技术应用探索（二）|学习笔记

2022-11-19 419

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习达摩院视觉 AI 技术应用探索（二）

开发者学堂课程【视觉 AI 应用开发教程：达摩院视觉 AI 技术应用探索（二）】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/289/detail/3410

达摩院视觉 AI 技术应用探索（二）

三、视觉生成

1.视觉生成——鹿班

最开始使用的是鹿班，是视觉生成领域在业界落地的先行者，对外提供大规模在线的 AI 设计服务，累计设计平面图像20亿。

2.视觉生成——框架流程

首先理解所需要达到的要求，把需求提出来，达到一个可控的状态，再生成一个处理结果，然后再生成一个细腻度结果，然后调整这个细节，跟上述的分割是有一点反向，先进行细理解再结合起来做。

3.视觉生成——鹿班电商设计

多种设计模式

支持照图生图等指定类型的设计，将原图的风格、布局等信息学习并迁移到目标数据上。

多元风格

多元化设计风格，结合商品品类、投放场景、目标客群的差异进行订制化设计。

4.视觉生成——鹿班场景智能美工

AI实现场景设计能力：

1. 人工还原机器学习 JPG->PSD

2. 模板创作机器人 1PSD->100PSD

3. 图片合成机器人 PSD->PNG

5、视觉生成——鹿班行业设计

6.视觉生成——Alibaba Wood

AlibabaWOOD 短视频设计生成

累计生成：2000万+个

一键批量生成全店商品短视频：alibabawood.aliyun.com

剧本生成智能文案生成自动剪辑智能音乐推荐

7.视频生成——框架流程

素材准备:镜头检测场景识别去重去噪→美化过滤智能裁切镜头分割

基础特效：主体检测朝向检测主色识别显著性→ 缩放平移镜头裁切拼图效果

智能特效：节奏检测图像分割动作识别特效推荐→ 静转动氛围贴图音画联动

8.视频生成——视频摘要

可以对视频内容全自动完成质量审核，内容分析和图像增强，输出多帧静止或动图

网络异常，图片无法展示

对一整段视频摘取其中一部分，例如15s，30s 等。或者摘取其中的一个画面，也即视频封面。

四、视觉编辑

1. 视觉编辑——视频植入

挖掘视频扩大植入提升植入

核心价值留盖范围效果效率

扩展广告曝光渠道，创新广告形式提升用户体验。

自动化批量处理视频内容，挖规海量短视频 UGC 内容等的广告价值，扩大植入内容的覆盖面

取代手工后期，缴短德入周期，降低人力成本，给广告招商留出充足时间，且不需要修改与流出媒强。

电视剧植入电影植入综艺植入

例如需要将视频分析清楚，搞清楚哪里可以投放广告，投放多长的广告。广告是一个视频，物体不断运动，需要进行跟踪。

2. 视觉编辑——视频内容擦除

实用技术包括字母擦除，台标擦除，广告擦除，场景文字擦除和人体

擦除

核心挑战与亮点：粗定位→精分割→像素填充→在线训练

一大类是将视频中的字幕给去除，比如将陈旧的视频字幕去除，换成高清的字幕，优化用户体验。一大类是去除一些不想要的字幕。另一大类是擦除 logo。

五、视觉增强

1. 视觉增强——视频增强

单点核心技术：人脸增强，去噪音，通用场景部分，LDR 升 HDR，倍频，去划痕。

复合应用技术：人脸修复，标清转高清，LDR-HDR 互转，4K 重生，（磁带）老片修复，端上实时增强。

核心挑战：分辨率，帧率和色彩

核心网络模型持续创新

生成对抗技术和图像翻译技术相融合

大规模虚拟数据生成与真实数据交叉训练

隐式光流计算与多帧特征融合提升时域稳定性

2. 视觉增强——人脸修复增强

人脸是最重要的目标对象，对人像进行细节修复增强，有很重要的意义和价值。从低分辨率到高分辨率，还原信息。

3. 视觉增强——渲染图部分

CG 渲染时间几乎与图像分辨率成正比，高质量真实感渲染需要需要30分钟才能生产一张图像

针对 CG 渲染流水线研发的超分辨率技术可以把低分辨率图像放大到与高清原图一样的清晰度

用于动画渲染或者 cg 渲染的使用。

4. 视觉增强——视频部分

在刚开始看的时候，视频可能会比较模糊，通过此项技术，清晰度和视觉表现力得到大的提升。提高帧率，可以给用户更好的观感体验，如果帧率太低，在高速运动的场景下，卡顿感会很明显。这时就需要用到此技术，进行帧率增强，来优化视觉效果。

5. 视觉增强——HDR 色彩扩展

从上图中，可以看到通透感以及清晰度的增强。