CVPR阿里优秀论文 | 基于时间尺度选择的在线行为预测

简介: 在线行为预测指的是当一个动作还未执行完之前,算法使用已经观测到的这些片段来预测该动作的类别。这个问题有几个关键点:首先,它是“在线”的,这表示算法得足够快,以实现在线应用;其次,算法需要在动作发生的早期(比如只完成了10%)便进行类别预测;此外,算法处理的是未分割的视频,这意味着视频可能包含多个动作实例,比如下图的视频序列就包含了多个动作。

image

在线行为预测指的是当一个动作还未执行完之前,算法使用已经观测到的这些片段来预测该动作的类别。这个问题有几个关键点:首先,它是“在线”的,这表示算法得足够快,以实现在线应用;其次,算法需要在动作发生的早期(比如只完成了10%)便进行类别预测;此外,算法处理的是未分割的视频,这意味着视频可能包含多个动作实例,比如下图的视频序列就包含了多个动作。

image

针对在线行为识别这一问题,我们可以使用在时间维度上滑动窗口的设计。传统滑动窗口方法往往采用一个固定的窗口尺度,或者采用多个尺度多次往返扫描。而在线行为预测这一问题中,如果使用多次扫描的话,会影响算法的运行效率;但是如果只用单一固定尺度的话,选择一个合适的时间窗口尺度却很不容易。

这是因为在行为预测任务中,当前正在发生的动作的已观测部分的长度在不同的时间点是在变化的。在动作发生的早期,我们需要使用比较小的时间窗口尺度,因为太大的窗口会包含很多来自于之前动作的帧,这些噪声信息会干扰对当前动作类别的识别。而在动作发生的后期,我们可以使用大的窗口尺度来尽可能覆盖该动作已执行的片段,以达到更好的预测准确率。这意味着在不同阶段使用一个固定的窗口尺度是不合适的。

在这篇论文中,作者提出了一个“尺度选择网”(scale selection network)来在不同时刻点动态的选择当前最合适的窗口尺度。该网络的基本结构如下图所示。

image

尺度选择网在时间维度上采用一维的卷积来建模不同帧之间的运动动态信息。为了得到一系列不同的时间尺度,该网络采用了扩张卷积(dilated convolution)的设计。通过设计一个层状的(hierarchical)扩张卷积网络的架构,在网络中,不同卷积层的节点拥有不同的感知窗口范围。比如,第1个卷积层的感知范围是2,第2层是4,第3层则是8,等等。

在如上的网络架构中,我们得到了一系列的感知尺度范围。针对在线行为识别不同时间点尺度变化的问题,我们需要在每个时间点来动态选择当前合适的时间窗口尺度。这篇文章设计了一个尺度回归子网络来预测每个时间点需要的尺度大小,该子网络如下图所以。

image

尺度回归子网络通过聚合网络中所有卷积层的信息,并将聚合的信息输入一个全连接网络中,来估计当前动作的当前帧到该动作起始帧之间的距离(s)。得到的s则可用于代表当前动作已经执行的部分,因此它可以用于作为预测当前动作类别合适的时间窗口尺度。

得到合适的窗口尺度(s)后,我们可以找到该尺度对应的卷积层。前面我们提到,在尺度选择网中,不同的层对应不同的感知尺度,因此我们找到最匹配的这一层,然后我们就可以使用这层的信息来预测动作类别(c)。这篇论文设计了一个类别预测子网络,在这个子网络中,合适的卷积层的信息被输入全连接网络用于行为预测。如下图所示,假定第3卷积层最匹配窗口尺度s,那么则聚合第1到第3层的信息。注意论文不仅仅使用了第3层信息,还融合了其下面的层,这是因为这种skip connection设计可以让网络收敛得更快,同时多尺度的信息融合,也能提高行为预测的准确率。

image

因为在视频序列的每个时间点上,网络都回归并采用最合适的时间窗口尺度,因此该方法可以得到可靠的预测准确率。值得一提的是,虽然尺度选择网有多个子网络,比如时间序列建模的一维卷积子网络,尺度回归子网络,以及行为预测子网络,但是所有这些子网络均集成在同一个网络架构中,因此整个网络可以端到端进行训练。

作者使用了两个公开数据集来测试尺度选择网的效果,在两个数据集上都取得了很好的实验结果。实验结果如下图所示,其中SSNet是本文所提出的尺度选择网;而SSNet-GT则表示使用Ground Truth尺度来进行行为预测;FS-Net(S)则表示在所有时间点均采用同一个固定的尺度(S)用于行为预测。ST-LSTM则是本文作者之前发表在T-PAMI上的“Skeleton-Based Action Recognition Using Spatio-Temporal LSTM Networkwith Trust Gates”。Attention Net是作者发表在CVPR17的“Global Context-Aware Attention LSTM Networks for 3D ActionRecognition”。JCR-RNN是MSRA和PKU发表在ECCV16上的“Online Human Action Detection using Joint Classification-RegressionRecurrent Neural Networks”。可以看到,本文提出的SSNet的实验结果优于其他方法,并且准确率也接近使用Ground Truth尺度的结果。

image

原文发布时间为:2018-07-06
本文作者:匿名
本文来自云栖社区合作伙伴“ 阿里巴巴机器智能”,了解相关信息可以关注“ 阿里巴巴机器智能”。

相关文章
|
消息中间件 大数据 Kafka
【Kafka】kafka 发展历史分析
【4月更文挑战第5天】【Kafka】kafka 发展历史分析
|
安全 搜索推荐 网络安全
Windows操作系统的演变与未来趋势####
本文将深入探讨Windows操作系统从诞生至今的发展历程,分析其关键版本的技术创新、市场影响及用户反馈。同时,结合当前科技趋势,预测Windows系统的未来发展方向,包括智能化、云集成、安全性提升等方面的可能性。 ####
|
机器学习/深度学习 数据采集 前端开发
深入探讨模型泛化能力的概念、重要性以及如何通过交叉验证来有效评估和提升模型的泛化能力
【6月更文挑战第13天】本文探讨了机器学习中模型泛化能力的重要性,它是模型对未知数据预测的准确性。过拟合和欠拟合影响泛化能力,而交叉验证是评估模型性能的有效工具。通过K折交叉验证等方法,可以发现并优化模型,提高泛化能力。建议包括调整模型参数、选择合适模型、数据预处理、特征选择和集成学习。Python中可利用scikit-learn的cross_val_score函数进行交叉验证。
2083 7
|
Java 数据库连接 Maven
手把手教你如何搭建SSM框架、图书商城系统案例
这篇文章是关于如何搭建SSM框架以及实现一个图书商城系统的详细教程,包括了项目的配置文件整合、依赖管理、项目结构和运行效果展示,并提供了GitHub源码链接。
手把手教你如何搭建SSM框架、图书商城系统案例
|
12月前
|
机器学习/深度学习 存储 分布式计算
AllData数据中台商业版1.2.9版本重磅发布
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
Java Android开发
安卓增加或修改现有app apk的功能(apk功能扩展)
安卓增加或修改apk android apk app的功能(apk功能扩展)
安卓增加或修改现有app apk的功能(apk功能扩展)
|
编解码 前端开发 JavaScript
前端界的黑科技:掌握这些技术,让你的网站秒变未来感十足!
【10月更文挑战第31天】前端技术日新月异,黑科技层出不穷,让网页更加美观、交互更加丰富。本文通过响应式布局与媒体查询、前端框架与组件化开发等案例,展示这些技术如何让网站充满未来感。响应式布局使网站适应不同设备,前端框架如React、Vue则提高开发效率和代码质量。
297 3
|
安全 网络协议 Java
Java 网络编程详解
《Java网络编程详解》深入浅出地讲解了使用Java进行网络编程的技术和方法。从基础的网络协议介绍到核心的Socket编程,以及高级的NIO与多线程应用,帮助读者全面掌握Java网络编程技能,是Java开发者不可或缺的学习指南。
1064 8
|
移动开发
使用charles来抓取手机App的网络包
使用charles来抓取手机App的网络包
323 1
|
项目管理
项目管理类型盘点:从敏捷到传统的全面比较
项目管理有三种主流方法:瀑布式、敏捷式和精益式。瀑布式强调顺序和时间线,适合任务线性推进;敏捷式注重动态迭代,能灵活应对变化;精益式关注价值创造和资源优化,减少浪费。各团队应根据需求选择合适的方法以提升效率。
544 0

热门文章

最新文章