视频AI对话杭州云栖：新一代视频智能生产的探索与实践-阿里云开发者社区

视频AI对话杭州云栖：新一代视频智能生产的探索与实践

2018-09-21 4703

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在今年的杭州云栖大会AB区中庭，有一个全透明建筑备受瞩目，这就是云栖数据指挥中心。在这块大屏中的媒体中央厨房部分，正是采用了视频智能生产方案，将多模态内容理解与云导播和云剪辑相结合，使原来小时级别的视频生产降至秒级。

在今年的杭州云栖大会AB区中庭，有一个全透明建筑备受瞩目，这就是云栖数据指挥中心。在这块大屏中的媒体中央厨房部分，正是采用了视频智能生产方案，将多模态内容理解与云导播和云剪辑相结合，使原来小时级别的视频生产降至秒级。这套酷炫的解决方案背后有哪些黑科技？本文将一一为您解答。

“在这个全民视频时代，伴随着移动互联和智能设备的蓬勃发展，以及AI和视频技术的快速演进、深度结合，媒资的整个流程，正在发生着深刻的变革“ 阿里云高级技术专家胡帆认为：“从生产制作、到管理管控、再到分发消费，媒资服务全链路都在向着更加智能的方向演进。阿里云在原有的Apsara Video之上，融入了人工智能技术，构建了全球一体化的媒资服务，帮助企业实现智能化媒资协同生产、资源共享和极速分发。“

媒体全流程发生深刻变革，智能化生产势在必行

在智能高效方面，阿里云构建了完整的视频AI能力和丰富的产品体系，包括审核、识别、理解和搜索等，将这些AI Feature完整融入到媒资服务的各环节之中，带来了全新的智能变革，这就是整个智能生产方案的基石。

第一，智能生产制作

1.智能采集，在采集端上，如果需要UGC、PGC贡献的媒资平台，阿里云的短视频SDK在视频录制和非编制作上提供产品级能力，支持大眼、瘦脸等高级特效美颜，以及基于人脸识别和追踪的动态贴纸拍摄效果，让视频更多元和精美。

2.智能剪辑，采集到的视频源，可以通过云端和终端两种方式剪辑，在终端，阿里云短视频SDK支持多种混剪、滤镜、转场、音乐特效，并提供个性化素材；在云端，结合云端剪辑、多模态内容理解技术，科自动二次生产成优质内容，相比传统视频生产，智能生产可以将时效性提升到秒级，而且大大降低了设备投入。

3.实时字幕，区别于传统的人工转化与翻译，智能生产可以通过ASR自动语音转文本，并且将文本存在对应的时间线，再自动翻译成所需语种，干预量远低于传统生产。这项技术除了应用于离线视频外，也适用于会议直播的实时字幕生产。

第二，智能媒资管理

内容审核，违规内容会给企业运营带来极大风险，智能审核可以通过工作流自动触发或API提交来完成，鉴别涉及黄、反、暴、恐、政，来管控内容风险，并针对已判断违规的内容，自建媒体黑库，进一步提高审核效率。
提取智能封面，自动甄选出最优的关键帧或片段，作为视频封面，从而更好的表达视频核心内容，吸引用户转化观看。
智能编目，传统的深度编目1个小时的视频大约需要2-4个小时才能完成，在内容爆发的互联网时代，智能编目可以通过视频自动分类、打标、人物识别、语音识别等技术，自动生成数据信息，进入媒资库，并结合NLP和词性过滤等场景，进入后续的智能推荐环节。整个过程靠算法驱动，不需要人力投入。
智能云导播，通过多模态内容理解技术，与云导播台结合，自动在视频中叠加人物的信息，并对集锦进行实时准确的生产。这一方案可摆脱专业导播设备、专业编辑软件及专业人员的高门槛高成本，无须人工参与，实现成本百余倍降低，并实现了多地协同。

（杭州云栖数据指挥中心 – 视频智能生产）

第三，智能分发消费

在分发消费环节，基于视频DNA（唯一标记一个媒体）构建的智能媒资搜索引擎，能够将最精准、最优质的内容展现给用户，同时，视频DNA的指纹索引具有稳定性，不会随媒体文件格式转换、剪辑、压缩旋转而产生变化，能有效识别原创视频和重复视频，避免搜索时出现过多相同或相似的视频，影响用户体验。同时，视频DNA也可以应用于视频版权的保护。

除了云栖大会数据指挥中心外，智能生产也有几个其他案例。

智能生产解决方案场景案例——世界杯精彩集锦

在今年的优酷世界杯赛事直播期间，阿里云智能生产解决方案全网瞬时生成赛事精彩镜头，最快只需10秒，将生产效率提升近10倍，优酷世界杯赛事的短视频内容20%都是利用AI智能生产。

胡帆讲到：”球星集锦的核心原理是将人物出现的时间线连接起来，自动生成人物集锦。这其中我们采用了定义人脸库+人脸注册的方式，为球星建立独立的人脸库。在此基础上，对注册的球星进行人脸识别和目标追踪，同时对人物在视频中出现的时间线和幅面坐标进综合的动态分析。当然，单人脸时间线是不够的，我们还进一步结合语音识别ASR和文本识别 OCR，实时分析解说词和比赛场记等，获取球员名称、关键事件和比分变化等信息。在剪辑阶段，我们也使用了多段并行处理的快速剪辑模式，进一步保证了时效性。”

智能生产解决方案场景案例——智能运动会

今年云栖大会也举办了智能运动会。其中的云•冲浪智能集锦和3V3篮球赛背后，也有智能生产的身影。

云•冲浪智能集锦，依托阿里视频云的媒体处理能力，与阿里机器智能技术实验室的视频AI技术，通过对多场冲浪赛事的视频数据进行了快速学习，对多视角下参赛者的姿态、动作，运动轨迹进行多维度的全景分析与建模，实现对一场冲浪表演的准确认知和理解，让视频AI能够评判每一位参与者动作的精彩程度，获取用户精彩表现的时码区间。再由智能云导播台对现场画面进行切换合流，点播服务对直播流切片的识别结果实时进行解析、降噪、归并、切割，再通过云剪辑的平滑处理在云端快速合成集锦视频，为每位体验者记录最精彩瞬间，并支持实时的下载和转发。

同时，在3V3篮球比赛中，通过类似技术，也有为参赛球员和整场比赛生成集锦。这个项目的负责人，也就是阿里云视频AI高级产品经理廉亚男说：“令人兴奋的是，我们在极短的时间内，克服了集锦生产时效性和质量的巨大考验，为参与者提供了全新的体验。这也是首次实现智能云导播、智能云剪辑与视频AI技术的完美融合，是在世界杯足球集锦后，又一次为体育行业带来新意的成功尝试。“

互联网逐渐打破边界和时差，如何构建全球一体化媒资生产管理平台

与此同时，越来越多的企业正在开展国际化业务，互联网正在逐渐打破边界和时差。基于覆盖全球的基础设施，阿里云新一代的媒资服务通过多区域的数据高速同步，实现国内外多中心，能随时随地进行协同生产和管控。同时，阿里云CDN超过1500个的全球节点，能帮客户快速分发媒体内容到达六大洲、70多个国家。

下图中可以看到，国内和海外不同区域都能就近访问媒资服务，实现快速读写，虽然每个区域都部署了全套的媒资服务，接入层和应用层相对独立，但核心的媒资库元数据在每个区域都存储了全量。如果是单区域的读写，系统保证了强一致性; 如果是跨区域，在保证分区容错性和可用性的同时，能确保最终一致性。

同时，通过域名解析和请求转移等方式，实现异地多活和故障自动迁移，确保媒资服务的高度稳定性。为了减少数据传输和就近回源，媒体文件会在各个区域内部进行存储、处理和计算，所以每Region的元数据为全量，但物理文件只是局部。

以上就是AI技术在媒资全流程的应用，以及阿里云在新一代智能媒资生产服务的相关探索和实践。对以上内容感兴趣的用户，欢迎登陆阿里云官网-视网膜系统，进行了解或申请试用