CVPR阿里优秀论文 | 基于时间尺度选择的在线行为预测

简介: 在线行为预测指的是当一个动作还未执行完之前,算法使用已经观测到的这些片段来预测该动作的类别。

在线行为预测指的是当一个动作还未执行完之前,算法使用已经观测到的这些片段来预测该动作的类别。这个问题有几个关键点:首先,它是“在线”的,这表示算法得足够快,以实现在线应用;其次,算法需要在动作发生的早期(比如只完成了10%)便进行类别预测;此外,算法处理的是未分割的视频,这意味着视频可能包含多个动作实例,比如下图的视频序列就包含了多个动作。

1.JPG

针对在线行为识别这一问题,我们可以使用在时间维度上滑动窗口的设计。传统滑动窗口方法往往采用一个固定的窗口尺度,或者采用多个尺度多次往返扫描。而在线行为预测这一问题中,如果使用多次扫描的话,会影响算法的运行效率;但是如果只用单一固定尺度的话,选择一个合适的时间窗口尺度却很不容易。

这是因为在行为预测任务中,当前正在发生的动作的已观测部分的长度在不同的时间点是在变化的。在动作发生的早期,我们需要使用比较小的时间窗口尺度,因为太大的窗口会包含很多来自于之前动作的帧,这些噪声信息会干扰对当前动作类别的识别。而在动作发生的后期,我们可以使用大的窗口尺度来尽可能覆盖该动作已执行的片段,以达到更好的预测准确率。这意味着在不同阶段使用一个固定的窗口尺度是不合适的。

在这篇论文中,作者提出了一个“尺度选择网”(scale selection network)来在不同时刻点动态的选择当前最合适的窗口尺度。该网络的基本结构如下图所示。

2.jpg

尺度选择网在时间维度上采用一维的卷积来建模不同帧之间的运动动态信息。为了得到一系列不同的时间尺度,该网络采用了扩张卷积(dilated convolution)的设计。通过设计一个层状的(hierarchical)扩张卷积网络的架构,在网络中,不同卷积层的节点拥有不同的感知窗口范围。比如,第1个卷积层的感知范围是2,第2层是4,第3层则是8,等等。

在如上的网络架构中,我们得到了一系列的感知尺度范围。针对在线行为识别不同时间点尺度变化的问题,我们需要在每个时间点来动态选择当前合适的时间窗口尺度。这篇文章设计了一个尺度回归子网络来预测每个时间点需要的尺度大小,该子网络如下图所以。

3.jpg

尺度回归子网络通过聚合网络中所有卷积层的信息,并将聚合的信息输入一个全连接网络中,来估计当前动作的当前帧到该动作起始帧之间的距离(s)。得到的s则可用于代表当前动作已经执行的部分,因此它可以用于作为预测当前动作类别合适的时间窗口尺度。

得到合适的窗口尺度(s)后,我们可以找到该尺度对应的卷积层。前面我们提到,在尺度选择网中,不同的层对应不同的感知尺度,因此我们找到最匹配的这一层,然后我们就可以使用这层的信息来预测动作类别(c)。这篇论文设计了一个类别预测子网络,在这个子网络中,合适的卷积层的信息被输入全连接网络用于行为预测。如下图所示,假定第3卷积层最匹配窗口尺度s,那么则聚合第1到第3层的信息。注意论文不仅仅使用了第3层信息,还融合了其下面的层,这是因为这种skip connection设计可以让网络收敛得更快,同时多尺度的信息融合,也能提高行为预测的准确率。

4.jpg

因为在视频序列的每个时间点上,网络都回归并采用最合适的时间窗口尺度,因此该方法可以得到可靠的预测准确率。值得一提的是,虽然尺度选择网有多个子网络,比如时间序列建模的一维卷积子网络,尺度回归子网络,以及行为预测子网络,但是所有这些子网络均集成在同一个网络架构中,因此整个网络可以端到端进行训练。

作者使用了两个公开数据集来测试尺度选择网的效果,在两个数据集上都取得了很好的实验结果。实验结果如下图所示,其中SSNet是本文所提出的尺度选择网;而SSNet-GT则表示使用Ground Truth尺度来进行行为预测;FS-Net(S)则表示在所有时间点均采用同一个固定的尺度(S)用于行为预测。ST-LSTM则是本文作者之前发表在T-PAMI上的“Skeleton-Based Action Recognition Using Spatio-Temporal LSTM Networkwith Trust Gates”。Attention Net是作者发表在CVPR17的“Global Context-Aware Attention LSTM Networks for 3D ActionRecognition”。JCR-RNN是MSRA和PKU发表在ECCV16上的“Online Human Action Detection using Joint Classification-RegressionRecurrent Neural Networks”。可以看到,本文提出的SSNet的实验结果优于其他方法,并且准确率也接近使用Ground Truth尺度的结果。
5.jpg

相关文章
|
机器学习/深度学习 人工智能 达摩院
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
本文介绍阿里巴巴达摩院决策智能实验室时间序列预测方向的最新(ICML 2022 accepted)工作:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting论文链接:https://arxiv.org/abs/2201.12740代码链接:https://github.com/DA
2579 0
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
|
1月前
|
机器学习/深度学习 搜索推荐 算法
深度学习-点击率预估-研究论文2024-09-14速读
深度学习-点击率预估-研究论文2024-09-14速读
45 0
|
3月前
KDD 2024:零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT
【8月更文挑战第21天】UrbanGPT是由香港大学等机构研发的时空大模型,针对城市管理中因数据稀缺导致的预测难题,通过时空依赖编码器与指令调整技术实现强大的泛化能力。此模型能在多种城市任务中无需样本进行准确预测,如交通流量和人群流动等,有效应对数据收集难的问题,在零样本场景下表现优异,为智慧城市管理提供了有力工具。[论文](https://arxiv.org/abs/2403.00813)
47 1
|
人工智能 算法
阿里云人工智能平台 PAI 扩散模型加速采样算法论文入选 CIKM 2023
近日CIKM 2023上,阿里云人工智能平台PAI和华东师范大学陈岑副教授团队主导的扩散模型加速采样算法论文《Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models》入选。此次入选意味着阿里云人工智能平台 PAI自研的扩散模型算法和框架达到了全球业界先进水平,获得了国际学者的认可,展现了中国人工智能技术创新在国际上的竞争力。
|
机器学习/深度学习 算法 计算机视觉
NeurIPS 2022 | 视觉长尾学习模型为何无法较好地落地?
NeurIPS 2022 | 视觉长尾学习模型为何无法较好地落地?
211 0
NeurIPS 2022 | 视觉长尾学习模型为何无法较好地落地?
|
机器学习/深度学习 运维 算法
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023(2)
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
1502 0
|
机器学习/深度学习 运维 自然语言处理
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023(1)
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
717 1
|
人工智能 搜索推荐 算法
AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
294 0
|
机器学习/深度学习 算法 数据可视化
精准高效估计多人3D姿态,美图&北航分布感知式单阶段模型入选CVPR 2022
精准高效估计多人3D姿态,美图&北航分布感知式单阶段模型入选CVPR 2022
136 0
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
141 0