将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读

简介: 结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。

写在前面

近期,阿里视频云推出了智能视频解决方案,依托阿里云强大的计算能力和多媒体人工智能技术,可以提高视频审核、处理的效率,助力视频产业加速。

行业背景

根据行业报告显示,2017上半年中国在线视频行业用户规模已经接近6亿,而2017年在线视频市场规模已经达到了503.3亿元,视频行业进入了用户规模稳中有升、市场规模快速扩大的阶段。其中直播、短视频等视频形态的崛起和大范围的行业交叉分布也带动了PGC、UGC的内容发展,海量的视频等多媒体数据随之产生。

市场的繁荣也促进了技术进步,视频云市场风起云涌,大量厂商加入角逐大军,提供从一站式音视频云服务到垂直细分技术服务等各类解决方案。平台方也希望通过推陈出新的技术来重塑视频的观看体验,从而沉淀更多用户。这其中VR、AR、AI技术也走进视频,开始为整个行业带来创新。尤其是行业关注度非常高的人工智能技术,它是可以基于云计算和人工智能模块来对海量视频数据进行分析、研究和处理。那么人工智能技术可以在视频领域应用于哪些场景呢?

需求场景

视频智能审核需求

网络发展也带来了内容的肆意泛滥,淫秽色情、暴恐、恐怖等不良视频影响了和谐的网络氛围,也给平台方带来了很多隐患。从2014年快播被关停至今,多家在线视频、直播、短视频平台都受到了处罚、整改、关停等监管措施。稍有不慎,平台方就会置身于违规违法的边缘。随着UGC短视频的爆发,传统的人工审核方式效率低下,很难满足快速、准确的审核海量的视频内容的需求,利用AI技术来提升视频数据的审核效率与精准度是一个新的方向。

视频内容理解需求

海量的视频源源不断的产生,如何将视频推给最合适的人群是一个巨大的挑战。在大多数情况下,为了方便用户的选择和观看,在线视频网站的视频是需要分类管理的,有的短视频APP还可以按照用户的喜好标签来推送指定的小视频,以提高视频点击率,优化用户体验,这一切都需要对视频数据进行最初的理解和判断。除此之外,在视频监控场景中,安防管控、人流监控等动作都是以视频理解技术为支撑的。

视频智能编辑需求

在我们浏览直播APP的时候,经常会被漂亮的封面图所吸引,从而进入直播间。有研究称最受用户喜欢的视频长度在2.1分钟左右,那么如何从2分钟的视频内选取最精华的缩影作为首图,是非常重要的提升用户点击率的手段。通常,平台方会通过编辑操作或提示用户选择一张效果最好的截图作为封面,但是这个办法效果并不理想。而且在广电新闻行业,也经常会出现需要将大段新闻拆成单条短新闻的业务场景,人工操作效率和准确率并不理想。利用AI技术,对视频进行编辑,就可以解决这个问题。

视频版权保护需求

网络盗版一直都是在线视频行业的一颗毒瘤,不仅影响了版权方的利益,也不利于行业健康的发展。在线教育、金融财经分析、版权剧等平台方都知道,如何对视频排重、相似度判断、盗版鉴定和防止侵权是非常重要的。目前PGC短视频盛行,那平台方对这些视频进行内容保护,可以鼓励原创性,推动视频内容的蓬勃发展。视频AI技术可以抓取视频数据进行鉴别,防止自有版权内容被侵权。

视频AI大图

image

根据用户的需求场景,阿里云推出了视频AI解决方案。上图是通过基础层、技术层、应用层、业务层四个层面来解读了视频AI解决方案的能力。在最底层,也就是基础层,主要是做算法的准备,保障算法的效率和效果,包括数据、离线训练、在线服务、移动端、高性能计算等等;第二层是技术层,这一层是算法的技术实现,分为四类:第一是视频检索,可以实现视频指纹、时序表征、视频索引。第二是视频理解,可以对视频进行识别、分类、语义分割和目标跟踪。第三是视频编辑,实现结构化分析、内容编解码和内容生成。第四是多模态分析,实现OCR/ASR/Face/Motion和跨媒体理解;第三层是应用层,是在搜索、识别、交互、编辑、监控这五类典型场景中,进行功能的封装;最上层是业务层,在这一层中,我们结合客户的实际业务,进行功能的提供,比如视频内容审核和视频版权保护的功能可以帮助安全业务更准确、高效的开展。

结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。

image

功能与应用

视频智能审核

视频智能审核依托阿里集团海量场景数据,具备高效数据流转体系,历经双11保障考验,可以对色情、暴恐、涉政、广告内容、二维码、无意义的视频进行识别,同时能够识别性暗示等未明显露点的色情行为和gif鉴黄,保证审核的高准确度。

功能实现了从产品接入、测试、策略管理、运营监控、到审核打标及模型/规则动态优化的闭环能力支撑。在通用能力满足常用场景的基础上,支持对高级能力的定制,可根据用户管控尺度进行灵活调整和快速迭代。为不同场景(视频/直播/社交/电商)提供视频内容安全审核的整套完整解决方案。

相对于传统的10万张/人/天的人工效率,智能审核可以达到10亿张/天的超高处理效率,同时大大节省了人力,成本得以压缩。

视频内容理解

在视频内容理解这个阶段,阿里云提供视觉、语音、文本、运动多模态信息分析技术,全方位理解视频,可以把非结构化的内容进行结构化处理。主要功能体现在以下五个方面。

1. 视频分类

通过视频多模态特征分析,自动对视频进行类目分类,提高视频分发、管理的效率

image

2. 语音识别

将语音转成文字的服务,能支持中文、普通话、英文的语音识别。可应用于实时会议记录、视频直播实时字幕等场景。

其中一个典型的应用场景是会议内容的实时转写,法庭庭审识别。智能语音识别技术将参会人所说的每一句话实时转写成文字并进行存储,依靠人工智能技术替代了人工记录会议内容,法庭庭审中取代书记员。另一个典型应用场景是视频直播实时字幕,现场演讲、直播场景下,将视频中的音频实时转写成字幕展示。相应速度极快,几乎与直播同步,提升了视听体验。

3. 视频标签

分析视频中图像、文字、语音、人脸、物体、行为等多模态信息,自动为视频打多维度标签。
image

这个功能的应用场景包括:视频的个性化推荐和视频检索,基于视频内容,可以实现快速给视频打多维度标签,并在新增热门标签时快速补充,解决新视频标签缺失和新热门标签缺失的问题。

4. 人脸识别

人脸识别(Facial Recognition)是提供视频帧和图像中人脸分析的服务,包括人脸检测、人脸特征提取、人脸关键点定位、人脸检索等服务。可应用于人脸美化、人脸识别和认证、大规模人脸检索、照片管理等场景。
image

人脸识别的功能应用场景非常广泛,包括会场、大厦等安防管控中的大规模人脸检索,零售行业通过人流监控分析货品摆放合理性,出勤率统计,照片管理与智能分类,娱乐美颜等等方面。

5. 目标检测

目标检测(Object Detection)是基于深度学习的目标检测技术,准确找出给定视频的视频帧中多目标及位置,并给出每个目标的具体类别。应用场景包括:第一,可以检测并识别特定类目的目标,对特定目标做有趣的交互;第二,可以识别视频中的目标位置及目标分类,为视频提供丰富的分类标签,可用于个性化推荐和视频搜索;第三,在目标检测后,可以对目标进行实时跟踪定位,精确地分割出目标的时域片段,用于智能监控系统、流量控制系统等。举个最实际的例子,在淘宝商家上传视频过程中,可以自动检测商品并跟踪,在前端展示的时候,感兴趣的用户点击锚点可以直接进入商品页。

image

视频智能编辑

视频编辑是为了更好的输出内容,提升用户点击率,优化用户体验。在这个环节,人工智能可以让视频千人千面,结合用户行为和封面图属性,同一个视频向不同用户展示不同的画面。并且支持类目定制,结合行业运营经验,定制不同的封面图生成模型。同时,视频编辑功能具有高精准度,利用多项AI技术,对视频进行全方位理解后,甄别出最优、最高精准度的画面或片段。

1. 视频首图

通过对视频内容的理解结合画面美学,选出最优的关键帧或关键片段作为视频封面图。

image

这个功能非常适用于UGC视频封面,用户上传的视频,使用智能生成封面图服务,为海量视频自动生成具有代表性的高质量封面图,提升用户视觉体验,展示在 feed 流、视频搜索结果页等场景。同时,在长视频场景中,通过智能生成封面图服务,截取精彩片段作为视频看点,利用动态展示方式吸引用户并快速展示精彩内容。

2. 视频摘要

视频摘要服务(Video Summary Service)根据视频内容智能提取最能代表视频的截图组成GIF,作为视频的摘要概括。应用场景同视频首图。

3. 视频Highlight

视频摘要服务(Video Summary Service)根据视频内容智能提取最能代表视频的5s视频,作为视频的highlight。应用场景同视频首图。

4. 新闻拆条

将新闻节目以单条新闻为单元自动化分割的服务,有助于后期对单条新闻的播放推送和加工处理,为新闻推送生产素材,并且可以灵活对某个或某类新闻做后期加工处理。

image

视频版权保护

阿里云人工智能通过长时间调研选型验证,如今已能够识别多种视频抄袭手段,保证视频查重结果的精准性。同时支持多分辨率多视频格式,亿级视频查重及相似度实时结果返回、视频入库、删除等操作。可用于如广告分成等多种业务场景。

1. 视频指纹

视频指纹是一种软件识别、提取、压缩视频技术,可以产生唯一“指纹”代表视频文件进行视频查找。在视频查重场景中,视频通过视频指纹在样本库中比对,召回相同/相似视频,进行入库、排序控制。

同时,视频指纹可对自有版权的视频资源,从公网抓取视频数据鉴别,防止自有版权内容被侵权,保护版权视频安全,并对原创视频、剪辑视频、自媒体再造视频进行识别,检索成分库召回认领视频,支撑广告分成业务生态。

2. 相似性计算

相似性技术可以生成给定视频的定长特征,计算视频之间相似度。可应用于基于视频内容推荐相关视频,个性化视频等场景,提高视频点击转化,也可以用于视频去重业务场景

3. 跨媒体检索

支持对文本、语音、图像、视频等不同多媒体种类进行内容统一特征检索。

效果展示及使用

我们在线上的视频AI产品专题页和【视网膜】页面中,可以看到阿里云视频AI的能力体现。

以线上已经有的示例视频为例,用户可以对人物识别、视频分类、标签识别、语音识别、文字识别(OCR)、视频审核、智能封面等功能进行体验。

下图是智能封面功能,人工智能为视频选择了最能代表视频内容的一帧图片。
image

下图是语音识别功能将功守道电影中的精彩片段里的音频别出来。
image

在视网膜系统中,我们看到一段热播剧猎场的视频片段,示例视频中的明星人物被完整无误的识别出来,同时,该人物在视频中出现的位置也被标记出来,点击标记点,即可直接跳转到人物的片段,这就是人物识别功能
image

整个视频被分解出无数标签,点击某个标签,直接跳转到对应的画面,这是视频标签
image

云栖大会的视频中,除了嘉宾演讲的语音被实时识别和显示,视频中的字幕、现场PPT等文字信息都也被识别出来,也就是OCR
image

目前,阿里云视频AI已经开放,点击登录视网膜:https://retina.aliyun.com

加入阿里云视频云AI-业务咨询群,申请试用

image

目录
相关文章
|
3月前
|
人工智能 运维 安全
阿里云通过ISO42001人工智能管理认证,引领AI治理推动协同共治
9月19日,在杭州云栖大会「AI治理与安全论坛」上,阿里云宣布通过人工智能技术的全生命周期管理ISO42001体系认证。该项认证由国际标准化组织(ISO)和国际电工委员会(IEC)制定,是第一部可认证的人工智能国际管理体系标准。
136 14
|
27天前
|
机器学习/深度学习 人工智能 算法
人工智能与医疗健康:AI如何改变生命科学
【10月更文挑战第31天】人工智能(AI)正深刻改变医疗健康和生命科学领域。本文探讨AI在蛋白质结构预测、基因编辑、医学影像诊断和疾病预测等方面的应用,及其对科研进程、医疗创新、服务效率和跨学科融合的深远影响。尽管面临数据隐私和伦理等挑战,AI仍有望为医疗健康带来革命性变革。
90 30
|
22天前
|
人工智能 开发者
通义灵码融入南京大学 AI 编程创新课,让大学生释放想象力
南京大学软件学院副教授钦老师将通义灵码引入了 X 层级课程《人工智能驱动编程》中,通过将通义灵码智能编码实践与传统编程语言教学融合的方式,让学生切身体会人工智能、大模型技术对编程学习方式带来的改变。
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
1分钟认识:人工智能claude AI _详解CLAUDE在国内怎么使用
Claude AI 是 Anthropic 开发的先进对话式 AI 模型,以信息论之父克劳德·香农命名,体现了其在信息处理和生成方面的卓越能力
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能与未来医疗:AI技术如何重塑医疗健康领域###
【10月更文挑战第21天】 一场由AI驱动的医疗革命正在悄然发生,它以前所未有的速度和深度改变着我们对于疾病预防、诊断、治疗及健康管理的认知。本文探讨了AI在医疗领域的多维度应用,包括精准医疗、药物研发加速、远程医疗普及以及患者个性化治疗体验的提升,揭示了这场技术变革背后的深远意义与挑战。 ###
65 6
|
2月前
|
人工智能 自动驾驶 数据安全/隐私保护
人工智能的伦理困境:我们如何确保AI的道德发展?
【10月更文挑战第21天】随着人工智能(AI)技术的飞速发展,其在各行各业的应用日益广泛,从而引发了关于AI伦理和道德问题的讨论。本文将探讨AI伦理的核心问题,分析当前面临的挑战,并提出确保AI道德发展的建议措施。
|
2月前
|
人工智能 搜索推荐 安全
人工智能与未来社会:探索AI在教育领域的革命性影响
本文深入探讨了人工智能(AI)技术在教育领域的潜在影响和变革。通过分析AI如何个性化学习路径、提高教学效率以及促进教育资源的公平分配,我们揭示了AI技术对教育模式的重塑力量。文章还讨论了实施AI教育所面临的挑战,包括数据隐私、伦理问题及技术普及障碍,并提出了相应的解决策略。通过具体案例分析,本文旨在启发读者思考AI如何助力构建更加智能、高效和包容的教育生态系统。
|
3月前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
2月前
|
人工智能 算法 安全
人工智能伦理与监管:构建负责任的AI未来
【10月更文挑战第3天】随着人工智能(AI)技术的快速发展,其在社会各领域的应用日益广泛。然而,AI的广泛应用也带来了一系列伦理和监管挑战。本文旨在探讨AI的伦理问题,分析现有的监管框架,并提出构建负责任AI未来的建议。同时,本文将提供代码示例,展示如何在实践中应用这些原则。
334 1
|
2月前
|
人工智能 自然语言处理 安全
Gemini 人工智能:谷歌AI重磅来袭!好消息,国内可用
Gemini 是 Google 🧠 开发的革命性人工智能模型,旨在打造一个功能强大的多模态 AI 系统。