将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读

简介: 结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。

写在前面

近期,阿里视频云推出了智能视频解决方案,依托阿里云强大的计算能力和多媒体人工智能技术,可以提高视频审核、处理的效率,助力视频产业加速。

行业背景

根据行业报告显示,2017上半年中国在线视频行业用户规模已经接近6亿,而2017年在线视频市场规模已经达到了503.3亿元,视频行业进入了用户规模稳中有升、市场规模快速扩大的阶段。其中直播、短视频等视频形态的崛起和大范围的行业交叉分布也带动了PGC、UGC的内容发展,海量的视频等多媒体数据随之产生。

市场的繁荣也促进了技术进步,视频云市场风起云涌,大量厂商加入角逐大军,提供从一站式音视频云服务到垂直细分技术服务等各类解决方案。平台方也希望通过推陈出新的技术来重塑视频的观看体验,从而沉淀更多用户。这其中VR、AR、AI技术也走进视频,开始为整个行业带来创新。尤其是行业关注度非常高的人工智能技术,它是可以基于云计算和人工智能模块来对海量视频数据进行分析、研究和处理。那么人工智能技术可以在视频领域应用于哪些场景呢?

需求场景

视频智能审核需求

网络发展也带来了内容的肆意泛滥,淫秽色情、暴恐、恐怖等不良视频影响了和谐的网络氛围,也给平台方带来了很多隐患。从2014年快播被关停至今,多家在线视频、直播、短视频平台都受到了处罚、整改、关停等监管措施。稍有不慎,平台方就会置身于违规违法的边缘。随着UGC短视频的爆发,传统的人工审核方式效率低下,很难满足快速、准确的审核海量的视频内容的需求,利用AI技术来提升视频数据的审核效率与精准度是一个新的方向。

视频内容理解需求

海量的视频源源不断的产生,如何将视频推给最合适的人群是一个巨大的挑战。在大多数情况下,为了方便用户的选择和观看,在线视频网站的视频是需要分类管理的,有的短视频APP还可以按照用户的喜好标签来推送指定的小视频,以提高视频点击率,优化用户体验,这一切都需要对视频数据进行最初的理解和判断。除此之外,在视频监控场景中,安防管控、人流监控等动作都是以视频理解技术为支撑的。

视频智能编辑需求

在我们浏览直播APP的时候,经常会被漂亮的封面图所吸引,从而进入直播间。有研究称最受用户喜欢的视频长度在2.1分钟左右,那么如何从2分钟的视频内选取最精华的缩影作为首图,是非常重要的提升用户点击率的手段。通常,平台方会通过编辑操作或提示用户选择一张效果最好的截图作为封面,但是这个办法效果并不理想。而且在广电新闻行业,也经常会出现需要将大段新闻拆成单条短新闻的业务场景,人工操作效率和准确率并不理想。利用AI技术,对视频进行编辑,就可以解决这个问题。

视频版权保护需求

网络盗版一直都是在线视频行业的一颗毒瘤,不仅影响了版权方的利益,也不利于行业健康的发展。在线教育、金融财经分析、版权剧等平台方都知道,如何对视频排重、相似度判断、盗版鉴定和防止侵权是非常重要的。目前PGC短视频盛行,那平台方对这些视频进行内容保护,可以鼓励原创性,推动视频内容的蓬勃发展。视频AI技术可以抓取视频数据进行鉴别,防止自有版权内容被侵权。

视频AI大图

image

根据用户的需求场景,阿里云推出了视频AI解决方案。上图是通过基础层、技术层、应用层、业务层四个层面来解读了视频AI解决方案的能力。在最底层,也就是基础层,主要是做算法的准备,保障算法的效率和效果,包括数据、离线训练、在线服务、移动端、高性能计算等等;第二层是技术层,这一层是算法的技术实现,分为四类:第一是视频检索,可以实现视频指纹、时序表征、视频索引。第二是视频理解,可以对视频进行识别、分类、语义分割和目标跟踪。第三是视频编辑,实现结构化分析、内容编解码和内容生成。第四是多模态分析,实现OCR/ASR/Face/Motion和跨媒体理解;第三层是应用层,是在搜索、识别、交互、编辑、监控这五类典型场景中,进行功能的封装;最上层是业务层,在这一层中,我们结合客户的实际业务,进行功能的提供,比如视频内容审核和视频版权保护的功能可以帮助安全业务更准确、高效的开展。

结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。

image

功能与应用

视频智能审核

视频智能审核依托阿里集团海量场景数据,具备高效数据流转体系,历经双11保障考验,可以对色情、暴恐、涉政、广告内容、二维码、无意义的视频进行识别,同时能够识别性暗示等未明显露点的色情行为和gif鉴黄,保证审核的高准确度。

功能实现了从产品接入、测试、策略管理、运营监控、到审核打标及模型/规则动态优化的闭环能力支撑。在通用能力满足常用场景的基础上,支持对高级能力的定制,可根据用户管控尺度进行灵活调整和快速迭代。为不同场景(视频/直播/社交/电商)提供视频内容安全审核的整套完整解决方案。

相对于传统的10万张/人/天的人工效率,智能审核可以达到10亿张/天的超高处理效率,同时大大节省了人力,成本得以压缩。

视频内容理解

在视频内容理解这个阶段,阿里云提供视觉、语音、文本、运动多模态信息分析技术,全方位理解视频,可以把非结构化的内容进行结构化处理。主要功能体现在以下五个方面。

1. 视频分类

通过视频多模态特征分析,自动对视频进行类目分类,提高视频分发、管理的效率

image

2. 语音识别

将语音转成文字的服务,能支持中文、普通话、英文的语音识别。可应用于实时会议记录、视频直播实时字幕等场景。

其中一个典型的应用场景是会议内容的实时转写,法庭庭审识别。智能语音识别技术将参会人所说的每一句话实时转写成文字并进行存储,依靠人工智能技术替代了人工记录会议内容,法庭庭审中取代书记员。另一个典型应用场景是视频直播实时字幕,现场演讲、直播场景下,将视频中的音频实时转写成字幕展示。相应速度极快,几乎与直播同步,提升了视听体验。

3. 视频标签

分析视频中图像、文字、语音、人脸、物体、行为等多模态信息,自动为视频打多维度标签。
image

这个功能的应用场景包括:视频的个性化推荐和视频检索,基于视频内容,可以实现快速给视频打多维度标签,并在新增热门标签时快速补充,解决新视频标签缺失和新热门标签缺失的问题。

4. 人脸识别

人脸识别(Facial Recognition)是提供视频帧和图像中人脸分析的服务,包括人脸检测、人脸特征提取、人脸关键点定位、人脸检索等服务。可应用于人脸美化、人脸识别和认证、大规模人脸检索、照片管理等场景。
image

人脸识别的功能应用场景非常广泛,包括会场、大厦等安防管控中的大规模人脸检索,零售行业通过人流监控分析货品摆放合理性,出勤率统计,照片管理与智能分类,娱乐美颜等等方面。

5. 目标检测

目标检测(Object Detection)是基于深度学习的目标检测技术,准确找出给定视频的视频帧中多目标及位置,并给出每个目标的具体类别。应用场景包括:第一,可以检测并识别特定类目的目标,对特定目标做有趣的交互;第二,可以识别视频中的目标位置及目标分类,为视频提供丰富的分类标签,可用于个性化推荐和视频搜索;第三,在目标检测后,可以对目标进行实时跟踪定位,精确地分割出目标的时域片段,用于智能监控系统、流量控制系统等。举个最实际的例子,在淘宝商家上传视频过程中,可以自动检测商品并跟踪,在前端展示的时候,感兴趣的用户点击锚点可以直接进入商品页。

image

视频智能编辑

视频编辑是为了更好的输出内容,提升用户点击率,优化用户体验。在这个环节,人工智能可以让视频千人千面,结合用户行为和封面图属性,同一个视频向不同用户展示不同的画面。并且支持类目定制,结合行业运营经验,定制不同的封面图生成模型。同时,视频编辑功能具有高精准度,利用多项AI技术,对视频进行全方位理解后,甄别出最优、最高精准度的画面或片段。

1. 视频首图

通过对视频内容的理解结合画面美学,选出最优的关键帧或关键片段作为视频封面图。

image

这个功能非常适用于UGC视频封面,用户上传的视频,使用智能生成封面图服务,为海量视频自动生成具有代表性的高质量封面图,提升用户视觉体验,展示在 feed 流、视频搜索结果页等场景。同时,在长视频场景中,通过智能生成封面图服务,截取精彩片段作为视频看点,利用动态展示方式吸引用户并快速展示精彩内容。

2. 视频摘要

视频摘要服务(Video Summary Service)根据视频内容智能提取最能代表视频的截图组成GIF,作为视频的摘要概括。应用场景同视频首图。

3. 视频Highlight

视频摘要服务(Video Summary Service)根据视频内容智能提取最能代表视频的5s视频,作为视频的highlight。应用场景同视频首图。

4. 新闻拆条

将新闻节目以单条新闻为单元自动化分割的服务,有助于后期对单条新闻的播放推送和加工处理,为新闻推送生产素材,并且可以灵活对某个或某类新闻做后期加工处理。

image

视频版权保护

阿里云人工智能通过长时间调研选型验证,如今已能够识别多种视频抄袭手段,保证视频查重结果的精准性。同时支持多分辨率多视频格式,亿级视频查重及相似度实时结果返回、视频入库、删除等操作。可用于如广告分成等多种业务场景。

1. 视频指纹

视频指纹是一种软件识别、提取、压缩视频技术,可以产生唯一“指纹”代表视频文件进行视频查找。在视频查重场景中,视频通过视频指纹在样本库中比对,召回相同/相似视频,进行入库、排序控制。

同时,视频指纹可对自有版权的视频资源,从公网抓取视频数据鉴别,防止自有版权内容被侵权,保护版权视频安全,并对原创视频、剪辑视频、自媒体再造视频进行识别,检索成分库召回认领视频,支撑广告分成业务生态。

2. 相似性计算

相似性技术可以生成给定视频的定长特征,计算视频之间相似度。可应用于基于视频内容推荐相关视频,个性化视频等场景,提高视频点击转化,也可以用于视频去重业务场景

3. 跨媒体检索

支持对文本、语音、图像、视频等不同多媒体种类进行内容统一特征检索。

效果展示及使用

我们在线上的视频AI产品专题页和【视网膜】页面中,可以看到阿里云视频AI的能力体现。

以线上已经有的示例视频为例,用户可以对人物识别、视频分类、标签识别、语音识别、文字识别(OCR)、视频审核、智能封面等功能进行体验。

下图是智能封面功能,人工智能为视频选择了最能代表视频内容的一帧图片。
image

下图是语音识别功能将功守道电影中的精彩片段里的音频别出来。
image

在视网膜系统中,我们看到一段热播剧猎场的视频片段,示例视频中的明星人物被完整无误的识别出来,同时,该人物在视频中出现的位置也被标记出来,点击标记点,即可直接跳转到人物的片段,这就是人物识别功能
image

整个视频被分解出无数标签,点击某个标签,直接跳转到对应的画面,这是视频标签
image

云栖大会的视频中,除了嘉宾演讲的语音被实时识别和显示,视频中的字幕、现场PPT等文字信息都也被识别出来,也就是OCR
image

目前,阿里云视频AI已经开放,点击登录视网膜:https://retina.aliyun.com

加入阿里云视频云AI-业务咨询群,申请试用

image

目录
相关文章
|
9天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
68 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。
49 7
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
|
9天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
16天前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
36 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
23天前
|
机器学习/深度学习 人工智能 算法
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
阿里云人工智能平台 PAI 顺利通过中国信通院组织的 ITU-T AICP-GA国际标准和《智算工程平台能力要求》国内标准一致性测评,成为国内首家通过该标准的企业。阿里云人工智能平台 PAI 参与完成了智算安全、AI 能力中心、数据工程、模型开发训练、模型推理部署等全部八个能力域,共计220余个用例的测试,并100%通过测试要求,获得了 ITU 国际标准和国内可信云标准评估通过双证书。
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
|
3天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
LTX Video:Lightricks推出的开源AI视频生成模型
LTX Video是由Lightricks推出的开源AI视频生成模型,能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,支持长视频制作,适用于多种场景,如游戏图形升级和电子商务广告变体制作。
85 1
LTX Video:Lightricks推出的开源AI视频生成模型
存储 人工智能 自然语言处理
47 6
|
23天前
|
机器学习/深度学习 人工智能 监控
探索人工智能的伦理困境:我们如何确保AI的道德发展?
在人工智能(AI)技术飞速发展的今天,其伦理问题也日益凸显。本文将探讨AI伦理的重要性,分析当前面临的主要挑战,并提出相应的解决策略。我们将通过具体案例和代码示例,深入理解如何在设计和开发过程中嵌入伦理原则,以确保AI技术的健康发展。
30 11
|
1月前
|
人工智能 开发者
通义灵码融入南京大学 AI 编程创新课,让大学生释放想象力
南京大学软件学院副教授钦老师将通义灵码引入了 X 层级课程《人工智能驱动编程》中,通过将通义灵码智能编码实践与传统编程语言教学融合的方式,让学生切身体会人工智能、大模型技术对编程学习方式带来的改变。