阿里巴巴iDST+阿里视频云:计算机视觉和机器学习在消费级视频中的应用

简介: 本文邀请iDST高级算法专家刘扬,将从视频云和人工智能技术结合的由来、消费级视频的特点、iDST视频AI技术进展、iDST的VENUS视频分析平台、视频云+人工智能未来展望五个部分,来介绍iDST在视频领域的技术和在视频云上的工作成果。

在刚刚圆满落幕的杭州云栖大会上,阿里巴巴董事局主席马云宣布成立达摩院,并将在3年内投资1000亿人民币用于新技术研发。而iDST就是达摩院中的一员,她致力于打造涵盖图像视频、语音交互、自然语言理解、智能决策等人工智能核心技术,肩负着在人工智能领域树立阿里巴巴集团世界领先的技术品牌使命。

那iDST的人工智能技术与阿里视频云强强联合,将碰撞出怎样的科技火花呢?

本文邀请iDST高级算法专家刘扬,将从视频云和人工智能技术结合的由来、消费级视频的特点、iDST视频AI技术进展、iDST的VENUS视频分析平台、视频云+人工智能未来展望五个部分,来介绍iDST在视频领域的技术和在视频云上的工作成果。

6_1

视频云和人工智能结合的由来

视频AI是由几方面因素组成。最底层是云计算平台,它包括存储、海量视频的分布式计算和流媒体处理能力,这是基础。中间层是人工智能技术,包含了不同的人工智能处理模块,有机器学习、模式识别、计算机视觉等,来为云端存储的视频提供多种分析和理解服务。上层就是数据,数据来源于两个方面,一方面是媒体数据,也就是实际要处理的媒资(介质),比如广播电视、视频网站、短视频、视频直播等,另一方面是海量用户数据,比如直播主播、视频网站用户、短视频达人、新闻从业者等。

这上中下三层整个支撑了视频AI的整个系统,每一层都不可或缺。这里面数据是最为重要的一层,因为所有云计算和视频AI处理的能力,阿里云都可以提供,而在垂直细分市场中,真正能构建行业壁垒和竞争优势的,就是数据。

在视频领域,数据就是视频本身,那消费级视频拥有什么特点呢?

消费级视频的生命周期及演变

消费级视频区别于监控视频、医疗视频、航天视频、测绘视频等专业领域视频,它是用来娱乐大众和被观众消费的视频,我们日常生活中常见的娱乐综艺、影视剧、直播、短视频都属于消费级视频。它的整个生命周期分为四个阶段,第一阶段是生成,视频拍摄和录制,第二阶段是编辑,用户或者平台方进行视频处理和制作,第三阶段是视频通过不同的方式和渠道分发到用户手中,第四阶段是用户对视频进行消费。

随着网络的发展和短视频的兴起,视频的再次编辑->再次分发->再次消费已经成为了流行趋势。比如经常在短视频平台上,看到了热门影视剧中的片段,它经过编辑处理可以在短视频平台上再次分发。

6_2

随着时代的发展,消费级视频的生命周期也发生了很大变化。

生产阶段,视频从以往的专业设备拍摄,变成了如今的手机终端随时随地的采集;
编辑阶段,以往视频编辑是由专业人员进行剪辑,而如今视频编辑的概念演变成了美颜、滤镜等特效,降低了门槛,用户可以自由编辑;
分发阶段,从最初的电视节目逐渐演变成了视频网站的定向搜索观看,到如今十分普遍的APP feed流模式和个性化推荐;
体验阶段,从以往的纯粹看,到现在的与视频交互(包括电商、互动游戏、广告等等)。

由此可见,在视频的不同生命周期内,人工智能技术的应用也有所不同。接下来我们一起看看阿里巴巴iDST在视频领域研究的一些进展。

视频人工智能技术三大领域:视频理解、视频搜索、视频编辑

这三点是人工智能在视频云方面应用最广泛的三个领域,我们将从这三个方面详细阐述。

第一,视频内容理解技术

我们先了解下视频的内容怎么定义。
通常情况下我们认为,视频是图像序列。但是视频不仅仅只有视觉画面,视频还包含声音。声音又分为语音和音频两种,语音我们可以通过技术转换成文本,而音频是能表达出特定场景的寓意。另外视频还有运动,物体的运动信息,它能够对于视频中的行为类的内容有强有力的表现形式。所以我们认为,视频内容分析实际上就是对视频中多模态信息分析的过程,理解视频,其实就是理解这些多模态信息。

我们可以把视频内容简单地分为两类:一类是具有具象意义的内容,例如人、物体、场景、事件;另一类是抽象意义的内容:主题、情感等。

对于视频内容的理解,我们会将视频表现成有物理意义的标签。这个标签可以是不同粒度的,比如video-level的,整个视频的类目是新闻、体育,还是财经。再或者clip-level比如视频中的一个片段,是武打、亲吻还是赛车。甚至可以把标签定位到视频的某一帧上,即frame-level的。

6_3

图中绿色文字就是为视频打标签的技术手段,包括视频分类、语音识别、人物识别、OCR、物体识别、场景识别。

那在视频内容理解这一领域,人工智能+视频都做了什么?

  • 视频分类

在ACM MM‘17大规模视频分类竞赛中,阿里巴巴iDST团队平均准确率(mAP)达到87.41%,获得冠军。而在竞赛中,借助于阿里云ODPS,提取视频关键特征,我们可以实现大规模的视频分析处理能力,日处理规模为百万视频。

6_4

  • 视频多模态分析

下图包括OCR,它可以对视频中出现的文字进行识别;ASR,能够对视频的语音转文本,可以为视频实时加字幕。

  • 视频物体识别与定位

左边那幅图是物体识别,对应到技术上就是图像分类,识别出视频帧中包括什么物体,场景等;中间是云上的物体检测,右图是端上的物体检测,不只能识别视频中的物体是什么,还能定位到物体在哪里。目前,已经支持1000+物体的检测和5000+物体的识别,已经被广泛应用在云相册和优酷土豆的视频打标上。

6_5

  • 目标跟踪

在物体检测后,就是目标跟踪的过程。视频本身是有时域信息的,通过目标跟踪,我们可以准确地知道物体的生命周期,可以精确分割出物体的时域片段。比如在淘宝商家上传视频的过程中,会自动检测视频中的商品并跟踪,在前段展示的时候,用户感兴趣的话,可以点击锚点,直接进入商品页。

  • 事件、行为、动作、场景识别

其实在iDST的视频分析系统中,这四块技术的整体框架是相同的。对于任意一段长视频,我们都可以精确到视频中的每一分每一秒,给其中的事件或动作打上标签,并且对舆情进行分析。

  • 视频同款商品检索

iDST从15年开始做视频电商研究。之前如果在视频中搜同款,我们需要在视频中进行采帧,采帧之后对每一帧图像中检测到的物体进行检索。在连续的镜头中,同一件物体,由于演员动作、遮挡、形变等客观因素干扰,相同物体的搜索结果相差很大。为了提高搜索准确度,我们对同一件物体进行跟踪,通过LSTM在时域对物体序列进行encoding,来进行检索。

6_6

  • 个性化商品投放

这个能力已经落地在天猫魔盒第一版边看边淘项目中,它可以打通观看视频的用户、视频本身内容、淘宝上的商品之间的关系,它就会在最合适的视频片段里投放用户最感兴趣的商品。

第二,视频搜索技术

我们把视频搜索技术分成三块,一块是音视频指纹,主要用于相同视频检索;另一块是视频相似性,找的是相似的视频;还有一块是跨媒体检索,主要用于多类型query视频检索。

6_7

视频指纹技术的应用场景其实比较多,本身就是找同源视频。什么是同源视频?我们在视频网站上看到的,有的视频加了片头、片尾、边框、翻转、码率和格式的转换等,这些都是同源视频。目前,同源视频在检索速度可以达到40:1。视频相似性,通过视频向量的特征来度量不同视频之间的相似性,这个功能主要被应用在视频搜索和视频推荐中。跨媒体视频搜索,通过检索文本、语音、图像和视频片段等标签,在统一特征空间里找到对应的视频。

第三,视频编辑技术

从技术角度来说,视频编辑就是结构化分析。通过视频帧和帧之间的相似性和其他方法对视频进行不同粒度的分解。最细粒度就是帧,再往上一层是镜头,进一步就是场景。

在这个视频结构化分析的基础上,我们会对视频进行编辑,一些编辑应用可以体现在几个方面:封面图,打破传统的视频网站和APP用海报做封面图的模式,利用人工智能去选取最好的一张封面图,吸引用户的点击,这点已经在视频云客户、淘系、阿里大文娱产品中应用;GIF动图,对视频中的帧做成GIF动图,便于编辑快速浏览视频内容,对视频进行打标管理,提高运营效率;Highlight和摘要,对视频中的关键信息、吸引人的片段进行自动提取,比如三分钟看大片或者动态镜头展示;拆条,它的应用包括新闻拆条,新闻联播的视频拆成独立事件,另外一种是UGC或者娱乐视频,拆成片段,为短视频APP提供一些资源,进行再分发;特效就是对人物进行美颜、滤镜,包括专场处理等等。

6_8

VENUS视频服务平台

VENUS是由阿里巴巴iDST和阿里视频云一同打造的视频服务平台,这是一个智能分析与计算平台,通过国际权威的冠军技术,打造以视频为入口的平台服务。

视频内容理解服务

产品功能分为:视频分类、语音转字幕、人物识别、文本识别,泛标签提取,应用场景包括媒资管理,视频分发,广告投放,视频电商等。依托于iDST强大的科研实力,视频内容理解服务具备很多核心优势,其中包括刚刚前文讲到的多模态分析,还有完善的标签体系和稳定成熟的应用。因为阿里大文娱和淘系的强大的视频生态环境,资源非常丰富,类目体系完备,所以服务的场景可以涵盖电商、娱乐、短视频、长视频版权剧等等。同时,我们目前视频内容理解服务以及广泛应用在优酷、土豆、UC、闲鱼和手淘视频内容上,所以在集团内部经过了大量的、长期的验证之后,对外推出的服务一定是非常稳定成熟的。

6_9

视频指纹服务

这个服务目前是相对来说比较成熟的服务,业务场景非常明确,包括用于视频去重业务场景,版权保护和原创认证(防止侵权,鼓励PGC原创性,分成系统),安全审核(通过黑名单库来做视频安全审核)。目前视频指纹技术的优势在于能够多场景适配(格式、分辨率),对不同分辨率的同源视频具备很好的识别能力,并可以根据业务方需求进行秒级的实时扩展,另外,因为在特征选取上做了很多的深入研究,视频指纹的精确度也非常高。

视频智能编辑服务

涵盖了智能封面图、视频摘要、视频Highlight、GIF、视频切换化等多项产品功能,等你上传了一个视频后,你的所有编辑需求都可以一次性搞定。这里智能封面图也支持根据用户信息的实时反馈和行为日志,实现个性化的首图投放,也可以根据类目,进行首图自适应选取,加强用户体验。另外,智能首图技术不仅仅是基于视觉的处理,本身的模型是通过海量的用户行为日志来做的,我们会分析和提取用户点击率高的视频首图的共性,用这些信息指导模型的学习,所以,模型基于大数据生成的,可以提高用户的观看时长,减少搜索复杂度。

视频AI技术展望

阿里巴巴iDST高级算法技术专家刘扬认为:视频中的电商和广告是一个方向,用户最终是想实现流量变现。所以,未来我们需要在不打扰用户体验的情况下,进行视频电商和广告的尝试。另外,在未来,视频的流量分发也十分重要,平台方需要通过多种维度分析把最合适的视频推给最需要的人,视频AI技术在里面可以起到很大的作用,这是我们的研究方向。最后,视频编辑中版权素材库认证、版权追诉、版权交易的业务,以及视频交互编辑的体验,都是有非常大的前景的。人工智能技术在视频AI领域能够发挥的最大作用就是极大提高工作效率,节省人工成本和计算成本。

我们都知道视频是极耗资源的,视频平台是否能做到海量的视频分析,在最短的实际内高效进行视频处理,并且低成本的稳定运维,这三点极其重要。利用阿里巴巴iDST和阿里云视频云能力强大的技术实力,VENUS视频服务平台可以轻松做到以上几点,帮助客户更好的进行视频内容理解和分析,在消费级视频中更全面的应用计算机视觉和机器学习技术,达到高效工作的目的。

目录
相关文章
|
2月前
|
机器学习/深度学习 数据采集 算法
量子机器学习入门:三种数据编码方法对比与应用
在量子机器学习中,数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法,分析其原理、实现及适用场景,帮助读者选择最适合的编码策略,提升量子模型性能。
241 8
|
6月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。
|
3月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据机器学习模型在生物信息学基因功能预测中的优化与应用(223)
本文探讨了Java大数据与机器学习模型在生物信息学中基因功能预测的优化与应用。通过高效的数据处理能力和智能算法,提升基因功能预测的准确性与效率,助力医学与农业发展。
|
3月前
|
机器学习/深度学习 搜索推荐 数据可视化
Java 大视界 -- Java 大数据机器学习模型在电商用户流失预测与留存策略制定中的应用(217)
本文探讨 Java 大数据与机器学习在电商用户流失预测与留存策略中的应用。通过构建高精度预测模型与动态分层策略,助力企业提前识别流失用户、精准触达,实现用户留存率与商业价值双提升,为电商应对用户流失提供技术新思路。
|
3月前
|
机器学习/深度学习 存储 分布式计算
Java 大视界 --Java 大数据机器学习模型在金融风险压力测试中的应用与验证(211)
本文探讨了Java大数据与机器学习模型在金融风险压力测试中的创新应用。通过多源数据采集、模型构建与优化,结合随机森林、LSTM等算法,实现信用风险动态评估、市场极端场景模拟与操作风险预警。案例分析展示了花旗银行与蚂蚁集团的智能风控实践,验证了技术在提升风险识别效率与降低金融风险损失方面的显著成效。
|
4月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。
|
4月前
|
机器学习/深度学习 存储 Java
Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用(190)
本文探讨了Java大数据与机器学习模型在游戏用户行为分析及游戏平衡优化中的应用。通过数据采集、预处理与聚类分析,开发者可深入洞察玩家行为特征,构建个性化运营策略。同时,利用回归模型优化游戏数值与付费机制,提升游戏公平性与用户体验。
|
6月前
|
机器学习/深度学习 数据采集 人工智能
智能嗅探AJAX触发:机器学习在动态渲染中的创新应用
随着Web技术发展,动态加载数据的网站(如今日头条)对传统爬虫提出新挑战:初始HTML无完整数据、请求路径动态生成且易触发反爬策略。本文以爬取“AI”相关新闻为例,探讨了通过浏览器自动化、抓包分析和静态逆向接口等方法采集数据的局限性,并提出借助机器学习智能识别AJAX触发点的解决方案。通过特征提取与模型训练,爬虫可自动推测数据接口路径并高效采集。代码实现展示了如何模拟AJAX请求获取新闻标题、简介、作者和时间,并分类存储。未来,智能化将成为采集技术的发展趋势。
161 1
智能嗅探AJAX触发:机器学习在动态渲染中的创新应用
|
6月前
|
人工智能 自然语言处理 数据库
云上玩转Qwen3系列之二:PAI-LangStudio搭建联网搜索和RAG增强问答应用
本文详细介绍了如何使用 PAI-LangStudio 和 Qwen3 构建基于 RAG 和联网搜索 的 AI 智能问答应用。该应用通过将 RAG、web search 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了额外的联网搜索和特定领域知识库检索的能力,提升了智能回答的效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。

热门文章

最新文章

下一篇
oss云网关配置