5.26 受视觉通路的整体结构启发
一般认为层级的视觉系统有两条通路,即腹侧通路和背侧通路。一般腹侧通路处理与识别相关的信息,而背侧通路处理和物体空间位置以及运动有关的信息。在视频处理中,静态图像的信息和动作信息同时起作用。为了利用动作信息,常用的做法包括将前后多帧的图像信息在处理的某个阶段进行融合,比如早融合将多张图像一起输入,晚融合分别处理多张图像然后将它们的输出组合在一起。递归神经网络也经常用来辅助模型以提取时序上的动作信息。与这些做法不同,文献 [10] 将双通路的CNN 用于视频中的动作识别(如图 6 所示),其中空间流 CNN 模仿腹侧通路处理静态图像,时域流CNN 模仿背侧通路处理光流图片(光流图片提取了动作信息)。空间流 CNN 以单帧图像为输入,该CNN 能够识别出图像中包含的物体类别,由于动作本身是由物体发出的,静态图像的信息对动作识别有重要作用。时域流 CNN 以根据多帧图像计算出的光流图像作为输入进行处理。有趣的是,用图像分类任务对时域流 CNN 做预训练对这个任务仍然有辅助作用。模型在动作识别中取得了优异的效果,是目前做视频分类的基准模型,很多新的模型都是在此基础上的改进版,如文献 [11]。