AI管理个人视频,分享快乐是否更简单?-阿里云开发者社区

开发者社区> 雷锋网> 正文

AI管理个人视频,分享快乐是否更简单?

简介: 时序动作定位的改进可以推动视频亮点、视频摘要、视频搜索等许多重要功能的进展。我们希望继续提高这一领域的技术水平,同时为人们提供更多方式来追忆他们宝贵的记忆。
+关注继续查看
TB19FeJPCzqK1RjSZFLXXcn2XXa.png

雷锋网注:【 图片来源:Google Blog  所有者:Sudheendra Vijayanarasimhan and David Ross 】

如今,人们可以通过录制视频的方式与朋友和爱人分享美好时光,这已经不再是什么新鲜事。然而,每个拥有大量视频素材的人都会告诉你这样一个事实:遍历所有原始视频素材,寻找值得重温,或者适合与家人朋友共享的完美视频片段,是一项十分耗时的工作。

由于谷歌图片会自动在视频中寻找具有纪念意义的画面,并创建动画,所以,像孩子吹灭蜡烛的瞬间,或者朋友跳进泳池的瞬间,诸如此类的画面都可以被快速捕捉。这样一来,与朋友和家人分享美妙瞬间就容易多了。

在反复研究了用于时序动作定位(TAL)的R-CNN架构之后,自动化方面的一些难题已解决。这些难题的棘手之处在于,从千万种不同排列的数据中完成辨认或分类。因此,我们建立了TALNet,它能在一定时间内识别大量的短暂性动作。目前来说,相比起其他方法,TALNet完成这个任务的用时最短。它还允许谷歌图片推荐视频的最佳画面,让你可以与朋友和家人分享。

TB1f1uMPr2pK1RjSZFsXXaNlXXa.png

雷锋网注:【 图片来源:Google Blog  所有者:Sudheendra Vijayanarasimhan and David Ross 】

想要识别视频中的美妙瞬间,第一步是将人们可能希望保留的动作瞬间集合起来,比如吹灭生日蜡烛,猫摇尾巴等。然后,我们将这些带有特定动作的视频片段进行注释,以创建一个大型培训数据库。之后,我们会要求评定员找出并标记所有时刻。最后,模型经过这个带注释的数据集训练,之后就可以在全新的视频中识别所需的瞬间。

识别这些动作属于计算机视觉领域,它与生活中常见的对象识别一样,属于视觉检测的范畴。然而,TAL的目的是,在一个冗长且未修剪的视频里,标识每个动作的开始和结束时间,并给不同的动作贴上标签(如“吹灭蜡烛”)。它更侧重在一维视频帧序列中捕捉包含动作的时间片段。

我们使用的TALNet方法是受到了R-CNN二维图像对象检测框架的启发。因此,要理解TALNet,首先要理解R-CNN。下图演示了如何使用R-CNN架构进行对象检测。

TB1wbqOPCzqK1RjSZFHXXb3CpXa.png

雷锋网(公众号:雷锋网)注:【 图片来源:Google Blog  所有者:Sudheendra Vijayanarasimhan and David Ross 】

第一步是生成一组对象推荐,可以对图像中的对象进行分类。在此之前,要先通过卷积神经网络(CNN)将输入图像转换为二维特征图。然后,对象推荐网络围绕候选对象生成包围框。这些框是在多个尺度上生成的,以便应对自然图像中对象大小的不确定性。在对象确定之后,使用深度神经网络(DNN)将边界框中的对象分类为特定对象,比如“人”、“自行车”等。

时序动作定位是用一种类似于R-CNN的方式完成的。首先将视频输入帧序列转换为编码场景的一维特征映射序列。此映射被传递到一个视频段推荐网络,该网络生成候选段,每个候选段由开始和结束时间来定义。然后,DNN对视频片段中的动作进行分类,比如灌篮、传球。

TB1VnqOPpYqK1RjSZLeXXbXppXa.png

雷锋网注:【 图片来源:Google Blog  所有者:Sudheendra Vijayanarasimhan and David Ross 】

虽然时序动作定位可以看作是对象检测的一维对应物,但是,处理动作定位有一些值得注意的问题。为了将R-CNN方法应用到动作定位领域,我们特意解决了三个问题,并重新设计了体系结构来专门解决这些问题。

1.动作在持续时间方面变量更大

动作执行的时间范围变化很大,可以从几秒钟到几分钟不等。对于长时间的动作,理解动作的每一个框架并不重要。相反,我们可以通过快速浏览视频,使用扩展的时间卷积来更好地处理这个动作。这种方法允许TALNet搜索视频中的动作,同时根据既定的膨胀率跳过交替帧。根据锚段的长度自动选择不同速率的视频进行分析,可以有效地识别大至整个视频或短至一秒的动作。

2.目标动作前后的内容很重要

目标动作前后的内容包含了定位和分类的关键信息,这里说的是时间前后,而不是空间前后。因此,我们在时间内容上进行了编码,方法是在推荐生成和分类生成的阶段,将目标段在时间前后上按一定比例扩展。

3.目标动作需要多模式输入

目标动作由外观、运动轨迹,有时甚至是音频信息来定义。因此,为了获得最佳的结果,考虑特征的多种形式是很重要的。我们对推荐生成网络和分类网络都使用了一种后期融合方案,其中每种模式都有一个单独的推荐生成网络,这些网络的输出组合在一起才能得到最终的推荐集。

这些推荐使用单独的分类网络对每种模式进行分类,然后经过综合平均得到最终的预测。由于这些改进,在THUMOS的14检测基准上,TALNet在动作推荐和行动定位方面表现最佳,并在ActivityNet项目中展示了其竞争力。现在,每当人们将视频保存到谷歌图片中时,模型就会开始识别这些视频并创建动画来共享。

我们正在不断完善,使用更多的数据、特性和模型来提高动作定位的精度。时序动作定位的改进可以推动视频亮点、视频摘要、视频搜索等许多重要功能的进展。我们希望继续提高这一领域的技术水平,同时为人们提供更多方式来追忆他们宝贵的记忆。

雷锋网注:本文编译自Google AI Blog

【封面图片来源:网站名Google AI Blog,所有者:Sudheendra Vijayanarasimhan and David Ross】

雷锋网版权文章,未经授权禁止转载。详情见转载须知。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
人力资源管理视频
http://www.soku.com/search_playlist/q_%E4%BA%BA%E5%8A%9B%E8%B5%84%E6%BA%90 ...
406 0
【云栖大会精华汇】2017杭州云栖大会主论坛、分论坛在内的100+视频分享
2017杭州云栖大会主论坛、分论坛在内的100+视频分享, 阿里云双十一狂欢第一波,爆款限时惠,2017广州云栖大会预热...在2017广州云栖大会到来之际,云栖社区为大家倾情奉献上本期云栖大会精华汇,精彩不容错过!
6666 0
认真的做羞羞的事 一颗种子的自我分享
我是一颗种子。 叮,叮。。。某雷的下载完成提示音,大家应该还不陌生,上学时下课后宿舍内尽是叮叮叮有木有。。。 “叮”有时候是结束的标志, 也可能是隐私娱乐开始的暗示,毕竟下载完成就可以干自己的事了。。。 少年们在我面前,是没有秘密的。。。 在人类的世界里,互联网除了承载电商,交友,还承载了巨量的娱乐内容,隐私的娱乐,我的存在,要感谢互联网,感谢P2P。 那年还在花开的少年
1255 0
UWP 手绘视频创作工具技术分享系列 - 全新的 UWP 来画视频
原文:UWP 手绘视频创作工具技术分享系列 - 全新的 UWP 来画视频 从2017年11月开始,我们开始规划和开发全新的来画Pro,在12月23日的短视频峰会上推出了预览版供参会者体验,得到了很高的评价和关注度。
1215 0
前沿分享|阿里云资深技术专家 魏闯先:AnalyticDB PostgreSQL年度新版本发布
本篇内容为2021云栖大会-云原生数据仓库AnalyticDB技术与实践峰会分论坛中,阿里云资深技术专家 魏闯先关于“AnalyticDB PostgreSQL年度新版本发布”的分享。
268 0
淘宝视频内容标签的结构化分析和管理
淘宝视频是如何分类的?又是如何保持不同类别视频样本得到相对均衡?又是如何应用的?
135 0
+关注
516
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载