CVPR阿里优秀论文 | 基于时间尺度选择的在线行为预测

简介: 在线行为预测指的是当一个动作还未执行完之前,算法使用已经观测到的这些片段来预测该动作的类别。

在线行为预测指的是当一个动作还未执行完之前,算法使用已经观测到的这些片段来预测该动作的类别。这个问题有几个关键点:首先,它是“在线”的,这表示算法得足够快,以实现在线应用;其次,算法需要在动作发生的早期(比如只完成了10%)便进行类别预测;此外,算法处理的是未分割的视频,这意味着视频可能包含多个动作实例,比如下图的视频序列就包含了多个动作。

1.JPG

针对在线行为识别这一问题,我们可以使用在时间维度上滑动窗口的设计。传统滑动窗口方法往往采用一个固定的窗口尺度,或者采用多个尺度多次往返扫描。而在线行为预测这一问题中,如果使用多次扫描的话,会影响算法的运行效率;但是如果只用单一固定尺度的话,选择一个合适的时间窗口尺度却很不容易。

这是因为在行为预测任务中,当前正在发生的动作的已观测部分的长度在不同的时间点是在变化的。在动作发生的早期,我们需要使用比较小的时间窗口尺度,因为太大的窗口会包含很多来自于之前动作的帧,这些噪声信息会干扰对当前动作类别的识别。而在动作发生的后期,我们可以使用大的窗口尺度来尽可能覆盖该动作已执行的片段,以达到更好的预测准确率。这意味着在不同阶段使用一个固定的窗口尺度是不合适的。

在这篇论文中,作者提出了一个“尺度选择网”(scale selection network)来在不同时刻点动态的选择当前最合适的窗口尺度。该网络的基本结构如下图所示。

2.jpg

尺度选择网在时间维度上采用一维的卷积来建模不同帧之间的运动动态信息。为了得到一系列不同的时间尺度,该网络采用了扩张卷积(dilated convolution)的设计。通过设计一个层状的(hierarchical)扩张卷积网络的架构,在网络中,不同卷积层的节点拥有不同的感知窗口范围。比如,第1个卷积层的感知范围是2,第2层是4,第3层则是8,等等。

在如上的网络架构中,我们得到了一系列的感知尺度范围。针对在线行为识别不同时间点尺度变化的问题,我们需要在每个时间点来动态选择当前合适的时间窗口尺度。这篇文章设计了一个尺度回归子网络来预测每个时间点需要的尺度大小,该子网络如下图所以。

3.jpg

尺度回归子网络通过聚合网络中所有卷积层的信息,并将聚合的信息输入一个全连接网络中,来估计当前动作的当前帧到该动作起始帧之间的距离(s)。得到的s则可用于代表当前动作已经执行的部分,因此它可以用于作为预测当前动作类别合适的时间窗口尺度。

得到合适的窗口尺度(s)后,我们可以找到该尺度对应的卷积层。前面我们提到,在尺度选择网中,不同的层对应不同的感知尺度,因此我们找到最匹配的这一层,然后我们就可以使用这层的信息来预测动作类别(c)。这篇论文设计了一个类别预测子网络,在这个子网络中,合适的卷积层的信息被输入全连接网络用于行为预测。如下图所示,假定第3卷积层最匹配窗口尺度s,那么则聚合第1到第3层的信息。注意论文不仅仅使用了第3层信息,还融合了其下面的层,这是因为这种skip connection设计可以让网络收敛得更快,同时多尺度的信息融合,也能提高行为预测的准确率。

4.jpg

因为在视频序列的每个时间点上,网络都回归并采用最合适的时间窗口尺度,因此该方法可以得到可靠的预测准确率。值得一提的是,虽然尺度选择网有多个子网络,比如时间序列建模的一维卷积子网络,尺度回归子网络,以及行为预测子网络,但是所有这些子网络均集成在同一个网络架构中,因此整个网络可以端到端进行训练。

作者使用了两个公开数据集来测试尺度选择网的效果,在两个数据集上都取得了很好的实验结果。实验结果如下图所示,其中SSNet是本文所提出的尺度选择网;而SSNet-GT则表示使用Ground Truth尺度来进行行为预测;FS-Net(S)则表示在所有时间点均采用同一个固定的尺度(S)用于行为预测。ST-LSTM则是本文作者之前发表在T-PAMI上的“Skeleton-Based Action Recognition Using Spatio-Temporal LSTM Networkwith Trust Gates”。Attention Net是作者发表在CVPR17的“Global Context-Aware Attention LSTM Networks for 3D ActionRecognition”。JCR-RNN是MSRA和PKU发表在ECCV16上的“Online Human Action Detection using Joint Classification-RegressionRecurrent Neural Networks”。可以看到,本文提出的SSNet的实验结果优于其他方法,并且准确率也接近使用Ground Truth尺度的结果。
5.jpg

相关文章
|
机器学习/深度学习 人工智能 达摩院
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
本文介绍阿里巴巴达摩院决策智能实验室时间序列预测方向的最新(ICML 2022 accepted)工作:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting论文链接:https://arxiv.org/abs/2201.12740代码链接:https://github.com/DA
1711 0
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
|
11天前
|
数据采集 人工智能 编解码
二次元专用超分AI模型APISR:在线可用,入选CVPR
【4月更文挑战第15天】APISR是一款由密歇根大学、耶鲁大学和浙江大学联合研发的AI模型,专攻动漫风格的超分辨率问题。在CVPR会议上发表的这项成果,通过理解动漫制作流程,针对性地收集和处理训练数据,提升了动漫图像的清晰度和视觉效果。APISR引入预测导向的压缩模块和平衡的双感知损失函数,有效恢复手绘线条并减少颜色伪影。此外,模型关注图像复杂性,优化训练数据质量和学习效率。尽管面临处理复杂场景和颜色偏差的挑战,APISR为动漫图像处理开辟了新方向。
20 1
二次元专用超分AI模型APISR:在线可用,入选CVPR
|
6月前
|
机器学习/深度学习 人工智能 算法
CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023
近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。
|
6月前
|
人工智能 算法
阿里云人工智能平台 PAI 扩散模型加速采样算法论文入选 CIKM 2023
近日CIKM 2023上,阿里云人工智能平台PAI和华东师范大学陈岑副教授团队主导的扩散模型加速采样算法论文《Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models》入选。此次入选意味着阿里云人工智能平台 PAI自研的扩散模型算法和框架达到了全球业界先进水平,获得了国际学者的认可,展现了中国人工智能技术创新在国际上的竞争力。
|
9月前
|
人工智能 达摩院 算法
AI顶会论文解读 | 达摩院榜首人脸检测模型MogFace
AI顶会论文解读 | 达摩院榜首人脸检测模型MogFace
|
9月前
|
固态存储 算法 内存技术
腾讯2021sigmod论文Spitfire分析
腾讯2021sigmod论文Spitfire分析
74 0
|
9月前
|
机器学习/深度学习 人工智能 编解码
NLP领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ACL 2023
阿里云机器学习平台PAI主导的多篇论文在ACL 2023 Industry Track上入选。
|
10月前
|
机器学习/深度学习 数据采集 弹性计算
阿里云机器学习平台PAI论文入选 SIGMOD 2023
阿里云机器学习平台PAI和北京大学杨智老师团队合作的论文被SIGMOD 2023录用。
|
11月前
|
人工智能 搜索推荐 算法
AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
225 0
|
11月前
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法
296 0