AI管理个人视频,分享快乐是否更简单?

简介: 时序动作定位的改进可以推动视频亮点、视频摘要、视频搜索等许多重要功能的进展。我们希望继续提高这一领域的技术水平,同时为人们提供更多方式来追忆他们宝贵的记忆。
TB19FeJPCzqK1RjSZFLXXcn2XXa.png

雷锋网注:【 图片来源:Google Blog  所有者:Sudheendra Vijayanarasimhan and David Ross 】

如今,人们可以通过录制视频的方式与朋友和爱人分享美好时光,这已经不再是什么新鲜事。然而,每个拥有大量视频素材的人都会告诉你这样一个事实:遍历所有原始视频素材,寻找值得重温,或者适合与家人朋友共享的完美视频片段,是一项十分耗时的工作。

由于谷歌图片会自动在视频中寻找具有纪念意义的画面,并创建动画,所以,像孩子吹灭蜡烛的瞬间,或者朋友跳进泳池的瞬间,诸如此类的画面都可以被快速捕捉。这样一来,与朋友和家人分享美妙瞬间就容易多了。

在反复研究了用于时序动作定位(TAL)的R-CNN架构之后,自动化方面的一些难题已解决。这些难题的棘手之处在于,从千万种不同排列的数据中完成辨认或分类。因此,我们建立了TALNet,它能在一定时间内识别大量的短暂性动作。目前来说,相比起其他方法,TALNet完成这个任务的用时最短。它还允许谷歌图片推荐视频的最佳画面,让你可以与朋友和家人分享。

TB1f1uMPr2pK1RjSZFsXXaNlXXa.png

雷锋网注:【 图片来源:Google Blog  所有者:Sudheendra Vijayanarasimhan and David Ross 】

想要识别视频中的美妙瞬间,第一步是将人们可能希望保留的动作瞬间集合起来,比如吹灭生日蜡烛,猫摇尾巴等。然后,我们将这些带有特定动作的视频片段进行注释,以创建一个大型培训数据库。之后,我们会要求评定员找出并标记所有时刻。最后,模型经过这个带注释的数据集训练,之后就可以在全新的视频中识别所需的瞬间。

识别这些动作属于计算机视觉领域,它与生活中常见的对象识别一样,属于视觉检测的范畴。然而,TAL的目的是,在一个冗长且未修剪的视频里,标识每个动作的开始和结束时间,并给不同的动作贴上标签(如“吹灭蜡烛”)。它更侧重在一维视频帧序列中捕捉包含动作的时间片段。

我们使用的TALNet方法是受到了R-CNN二维图像对象检测框架的启发。因此,要理解TALNet,首先要理解R-CNN。下图演示了如何使用R-CNN架构进行对象检测。

TB1wbqOPCzqK1RjSZFHXXb3CpXa.png

雷锋网(公众号:雷锋网)注:【 图片来源:Google Blog  所有者:Sudheendra Vijayanarasimhan and David Ross 】

第一步是生成一组对象推荐,可以对图像中的对象进行分类。在此之前,要先通过卷积神经网络(CNN)将输入图像转换为二维特征图。然后,对象推荐网络围绕候选对象生成包围框。这些框是在多个尺度上生成的,以便应对自然图像中对象大小的不确定性。在对象确定之后,使用深度神经网络(DNN)将边界框中的对象分类为特定对象,比如“人”、“自行车”等。

时序动作定位是用一种类似于R-CNN的方式完成的。首先将视频输入帧序列转换为编码场景的一维特征映射序列。此映射被传递到一个视频段推荐网络,该网络生成候选段,每个候选段由开始和结束时间来定义。然后,DNN对视频片段中的动作进行分类,比如灌篮、传球。

TB1VnqOPpYqK1RjSZLeXXbXppXa.png

雷锋网注:【 图片来源:Google Blog  所有者:Sudheendra Vijayanarasimhan and David Ross 】

虽然时序动作定位可以看作是对象检测的一维对应物,但是,处理动作定位有一些值得注意的问题。为了将R-CNN方法应用到动作定位领域,我们特意解决了三个问题,并重新设计了体系结构来专门解决这些问题。

1.动作在持续时间方面变量更大

动作执行的时间范围变化很大,可以从几秒钟到几分钟不等。对于长时间的动作,理解动作的每一个框架并不重要。相反,我们可以通过快速浏览视频,使用扩展的时间卷积来更好地处理这个动作。这种方法允许TALNet搜索视频中的动作,同时根据既定的膨胀率跳过交替帧。根据锚段的长度自动选择不同速率的视频进行分析,可以有效地识别大至整个视频或短至一秒的动作。

2.目标动作前后的内容很重要

目标动作前后的内容包含了定位和分类的关键信息,这里说的是时间前后,而不是空间前后。因此,我们在时间内容上进行了编码,方法是在推荐生成和分类生成的阶段,将目标段在时间前后上按一定比例扩展。

3.目标动作需要多模式输入

目标动作由外观、运动轨迹,有时甚至是音频信息来定义。因此,为了获得最佳的结果,考虑特征的多种形式是很重要的。我们对推荐生成网络和分类网络都使用了一种后期融合方案,其中每种模式都有一个单独的推荐生成网络,这些网络的输出组合在一起才能得到最终的推荐集。

这些推荐使用单独的分类网络对每种模式进行分类,然后经过综合平均得到最终的预测。由于这些改进,在THUMOS的14检测基准上,TALNet在动作推荐和行动定位方面表现最佳,并在ActivityNet项目中展示了其竞争力。现在,每当人们将视频保存到谷歌图片中时,模型就会开始识别这些视频并创建动画来共享。

我们正在不断完善,使用更多的数据、特性和模型来提高动作定位的精度。时序动作定位的改进可以推动视频亮点、视频摘要、视频搜索等许多重要功能的进展。我们希望继续提高这一领域的技术水平,同时为人们提供更多方式来追忆他们宝贵的记忆。

雷锋网注:本文编译自Google AI Blog

【封面图片来源:网站名Google AI Blog,所有者:Sudheendra Vijayanarasimhan and David Ross】

雷锋网版权文章,未经授权禁止转载。详情见转载须知。

目录
相关文章
|
1天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
41 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
8天前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
27 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
LTX Video:Lightricks推出的开源AI视频生成模型
LTX Video是由Lightricks推出的开源AI视频生成模型,能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,支持长视频制作,适用于多种场景,如游戏图形升级和电子商务广告变体制作。
68 1
LTX Video:Lightricks推出的开源AI视频生成模型
存储 人工智能 自然语言处理
36 6
|
5月前
|
人工智能
[AI Mem0] 快速开始:智能记忆管理,让你的数据活起来!
[AI Mem0] 快速开始:智能记忆管理,让你的数据活起来!
|
5月前
|
机器学习/深度学习 存储 人工智能
智能化运维:AI在IT管理中的应用与挑战
【7月更文挑战第22天】在数字化转型的浪潮中,智能化运维成为企业追求效率和创新的关键。本文将深入探讨人工智能(AI)技术如何在IT运维领域发挥作用,包括自动化故障检测、预测性维护、以及智能决策支持等。同时,文章也将揭示AI运维面临的挑战,如数据隐私保护、模型可解释性和高成本投入等问题,并提出相应的解决策略。
|
2月前
|
人工智能 编解码 API
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
|
3月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
83 4
|
2月前
|
人工智能 自然语言处理 搜索推荐
Sora - 探索AI视频模型的无限可能
这篇文章详细介绍了Sora AI视频模型的技术特点、应用场景、未来展望以及伦理和用户体验等方面的问题。
35 0
|
4月前
|
机器学习/深度学习 人工智能 编解码