达摩院机器智能多媒体AI产品介绍

简介: 近年来,在计算机视觉领域中比较热门的方向当属视频AI技术,而阿里达摩院机器智能实验室也推出了自己的多媒体AI产品,并且将逐步上线视频AI的相关能力。本文中,达摩院机器智能实验室资深产品专家宋瑛娟将为大家简单介绍达摩院机器智能多媒体AI产品。

本文内容根据演讲视频以及PPT整理而成。

演讲嘉宾介绍:宋瑛娟,达摩院机器智能实验室资深算法专家。

预约观看演讲视频

背景介绍

大家都知道,视频AI技术是近年来计算机视觉中比较热门的方向。而在阿里达摩院,多媒体AI产品就是视频AI产品的一些能力,目前正在ai.aliyun.com官网上进行公测,公测的能力包括了标签能力、内容智能生成能力等。未来,在两到三个月内,达摩院机器智能实验室也会逐步上线更多多媒体AI标签的能力,包括短视频分类、更多动作识别、陌生人脸和负向标签(用于鉴黄等场景)等。预计在2020年3到5月份的时候,还将会上线视频指纹功能,帮助快速检索视频,以及多媒体AI自学习平台,借此来支撑更多深度定制的应用场景。

视频技术-改变传播能力

众所周知,视频技术能够改变传播方式。在互联网上,最早的传播方式是依靠文字,后来出现了图片传播以及图片和文字相结合的传播方式,之后又出现了音频,最后出现了视频的传播形式。对于视频而言,首先其天生就是多模态的。其次,视频在应用场景中,从创作、生产、分发、营销到消费是存在供给和消费闭环的。而对于阿里达摩院而言,所想要做的其实是一些最基础的能力。因此,达摩院对于视频AI的能力分为了三个部分,即智能理解、智能生产和智能分发。智能理解包括对于人、物以及自然和行为的识别和自动分类;智能生产包括智能拆条、智能缩略图、以及智能配乐等;而智能分发则包括了智能检索、版权溯源等。
图片1.png

视频技术-多模态视频理解助力精确检索和高效运营

前面提到,视频天生就是多模态的,而对于多模态数据的理解过程中就天然地会用到一些底层技术,比如对于视频的语音识别,通过OCR支持字幕识别,以及UGC识别等来综合地识别视频中的结构化信息。目前,达摩院的视频标签是比较通用化的,并且还在不断增加,如果有一些比较大的场景还可以和合作伙伴一起构建更多的视频标签。
图片2.png

达摩院机器智能多媒体AI产品2.0版本能够实现3到6倍速的视频处理速度,一个小时的视频最快能够在10分钟之内处理完成,并且能够将视频中的人物、建筑物、文字全部识别出来。在达摩院机器智能多媒体AI产品的后续优化中,会对于人脸的识别做一次大的提升,对于人脸识别的精度以及敏感人物的范围和库进行提升。

视频技术-视频指纹

所谓视频指纹,所想要做的就是基于对于一段视频的结构化理解来决定如何使用,比如在版权保护中判断两段视频是否相同,或者视频如果被分发到线下的广告中是否能够追踪到。实现视频指纹之后,即使视频的质量、空域发生变化,或者视频发生了拼接或者修改,仍然能够对于这段视频进行溯源。
图片3.png

视频技术-视频生成,封面、GIF、摘要、拆条、集锦

基于对于视频的结构化理解,达摩院机器智能多媒体AI产品就能够实现更多的视频应用,比如视频生成,封面、GIF、摘要、拆条、集锦等。目前,达摩院机器智能多媒体AI产品在线上比较重要的能力就是封面和GIF的生成技术,目前有很多厂商已经应用了。未来,达摩院机器智能多媒体AI产品将会在线上推出场景拆条和体育类集锦功能。并且继续优化封面和GIF能力,做到基于场景级别的静态、动态封面的生成。同时根据视频内容质量的抽取以及前端分发的质量度量,结合智能决策,对生成内容进行最优化前端触发。阿里在优酷的场景里面做了一些实验,帮助优酷将CTR提升了15%。
图片4.png

应用案例

目前,达摩院机器智能多媒体AI产品现在正在和央视进行合作,在央视的媒资库里面会做一些视频结构化的应用。简单而言,第一点就是素材结构化生成,第二点就是在媒资库中进行检索,第三点就是根据一些片段找到与国家领导人相关的片段并展示出来。
图片5.png

相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI检测技术:如何识别机器生成的“数字指纹”?
AI检测技术:如何识别机器生成的“数字指纹”?
345 115
|
4月前
|
人工智能 自然语言处理 数据安全/隐私保护
AI生成的文本:如何识破机器的“笔迹”?
AI生成的文本:如何识破机器的“笔迹”?
808 85
|
人工智能 自然语言处理 Devops
云效 AI 智能代码评审体验指南
云效AI智能代码评审正式上线!在合并请求时自动分析代码,精准识别问题,提升交付效率与质量。支持自定义规则、多语言评审,助力研发效能升级。立即体验AI驱动的代码评审革新,让AI成为你的代码质量伙伴!
536 7
|
4月前
|
人工智能 自然语言处理 算法
【2025云栖大会】AI 搜索智能探索:揭秘如何让搜索“有大脑”
2025云栖大会上,阿里云高级技术专家徐光伟在云栖大会揭秘 Agentic Search 技术,涵盖低维向量模型、多模态检索、NL2SQL及DeepSearch/Research智能体系统。未来,“AI搜索已从‘信息匹配’迈向‘智能决策’,阿里云将持续通过技术创新与产品化能力,为企业构建下一代智能信息获取系统。”
588 9
|
4月前
|
人工智能 数据安全/隐私保护
AI生成的痕迹:我们如何检测机器撰写的文本
AI生成的痕迹:我们如何检测机器撰写的文本
1354 117
|
4月前
|
机器学习/深度学习 人工智能 算法
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含2500张已标注实验室设备图片,涵盖空调、灭火器、显示器等10类常见设备,适用于YOLO等目标检测模型训练。数据多样、标注规范,支持智能巡检、设备管理与科研教学,助力AI赋能智慧实验室建设。
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
|
4月前
|
人工智能 生物认证 数据安全/隐私保护
AI检测器:我们如何识别机器生成的内容?
AI检测器:我们如何识别机器生成的内容?
391 3
|
4月前
|
机器学习/深度学习 人工智能
破译AI指纹:如何检测内容是否出自机器之手?
破译AI指纹:如何检测内容是否出自机器之手?
229 3

热门文章

最新文章