在线行为预测指的是当一个动作还未执行完之前,算法使用已经观测到的这些片段来预测该动作的类别。这个问题有几个关键点:首先,它是“在线”的,这表示算法得足够快,以实现在线应用;其次,算法需要在动作发生的早期(比如只完成了10%)便进行类别预测;此外,算法处理的是未分割的视频,这意味着视频可能包含多个动作实例,比如下图的视频序列就包含了多个动作。
针对在线行为识别这一问题,我们可以使用在时间维度上滑动窗口的设计。传统滑动窗口方法往往采用一个固定的窗口尺度,或者采用多个尺度多次往返扫描。而在线行为预测这一问题中,如果使用多次扫描的话,会影响算法的运行效率;但是如果只用单一固定尺度的话,选择一个合适的时间窗口尺度却很不容易。
这是因为在行为预测任务中,当前正在发生的动作的已观测部分的长度在不同的时间点是在变化的。在动作发生的早期,我们需要使用比较小的时间窗口尺度,因为太大的窗口会包含很多来自于之前动作的帧,这些噪声信息会干扰对当前动作类别的识别。而在动作发生的后期,我们可以使用大的窗口尺度来尽可能覆盖该动作已执行的片段,以达到更好的预测准确率。这意味着在不同阶段使用一个固定的窗口尺度是不合适的。
在这篇论文中,作者提出了一个“尺度选择网”(scale selection network)来在不同时刻点动态的选择当前最合适的窗口尺度。该网络的基本结构如下图所示。
尺度选择网在时间维度上采用一维的卷积来建模不同帧之间的运动动态信息。为了得到一系列不同的时间尺度,该网络采用了扩张卷积(dilated convolution)的设计。通过设计一个层状的(hierarchical)扩张卷积网络的架构,在网络中,不同卷积层的节点拥有不同的感知窗口范围。比如,第1个卷积层的感知范围是2,第2层是4,第3层则是8,等等。
在如上的网络架构中,我们得到了一系列的感知尺度范围。针对在线行为识别不同时间点尺度变化的问题,我们需要在每个时间点来动态选择当前合适的时间窗口尺度。这篇文章设计了一个尺度回归子网络来预测每个时间点需要的尺度大小,该子网络如下图所以。
尺度回归子网络通过聚合网络中所有卷积层的信息,并将聚合的信息输入一个全连接网络中,来估计当前动作的当前帧到该动作起始帧之间的距离(s)。得到的s则可用于代表当前动作已经执行的部分,因此它可以用于作为预测当前动作类别合适的时间窗口尺度。
得到合适的窗口尺度(s)后,我们可以找到该尺度对应的卷积层。前面我们提到,在尺度选择网中,不同的层对应不同的感知尺度,因此我们找到最匹配的这一层,然后我们就可以使用这层的信息来预测动作类别(c)。这篇论文设计了一个类别预测子网络,在这个子网络中,合适的卷积层的信息被输入全连接网络用于行为预测。如下图所示,假定第3卷积层最匹配窗口尺度s,那么则聚合第1到第3层的信息。注意论文不仅仅使用了第3层信息,还融合了其下面的层,这是因为这种skip connection设计可以让网络收敛得更快,同时多尺度的信息融合,也能提高行为预测的准确率。
因为在视频序列的每个时间点上,网络都回归并采用最合适的时间窗口尺度,因此该方法可以得到可靠的预测准确率。值得一提的是,虽然尺度选择网有多个子网络,比如时间序列建模的一维卷积子网络,尺度回归子网络,以及行为预测子网络,但是所有这些子网络均集成在同一个网络架构中,因此整个网络可以端到端进行训练。
作者使用了两个公开数据集来测试尺度选择网的效果,在两个数据集上都取得了很好的实验结果。实验结果如下图所示,其中SSNet是本文所提出的尺度选择网;而SSNet-GT则表示使用Ground Truth尺度来进行行为预测;FS-Net(S)则表示在所有时间点均采用同一个固定的尺度(S)用于行为预测。ST-LSTM则是本文作者之前发表在T-PAMI上的“Skeleton-Based Action Recognition Using Spatio-Temporal LSTM Networkwith Trust Gates”。Attention Net是作者发表在CVPR17的“Global Context-Aware Attention LSTM Networks for 3D ActionRecognition”。JCR-RNN是MSRA和PKU发表在ECCV16上的“Online Human Action Detection using Joint Classification-RegressionRecurrent Neural Networks”。可以看到,本文提出的SSNet的实验结果优于其他方法,并且准确率也接近使用Ground Truth尺度的结果。