中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法-阿里云开发者社区

开发者社区> 人工智能> 正文
登录阅读全文

中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法

简介:

1.5 基于深度学习的视频识别方法

下面介绍面向视频分类的深度学习方 法。深度卷积神经网络在图像分类取得 成功后,研究人员就希望把它推广到视 频分类中。但这不是一件很容易的事, 一个原因是缺乏足够的训练数据。为此, 谷歌和斯坦福的研究人员开发了 Sports-1 M 数据库,包含 100 万段视频,有 487 类各种各样的运动,这是一个相当大的 数据库。同时他们改进了传统卷积神经 网络,用于处理视频序列,提出在不同 阶段进行特征的融合,这里图中给出了 Late Fusion、Early Fusion、Slow Fusion 三种策略,其中 Slow Fusion 效果最好。

image

接着他们利用 Sports-1 M 这个数据库来训练自己开发的网络。一个值得关心 的问题是深度学习获得了什么样的特征, 下图给出学习到的三维,大家可以看到, 一闪一闪的,有一些彩色的动态边缘。但 这个方法在传统 UCF 数据库测试结果并 不高,低于传统非深度学习的方法。因此, 研究人员就在想有没有更好的方法。

image

下面讲两个非常有效的视频深度学习 模型。第一个工作是 C3D 模型 , 该模型把 VGG 网络的滤波器从二维推广到三维, 增加的一维对应于时间。我们知道 VGG 网络中有大量 3×3 的滤波器,C3D 模 型 把 3×3 的滤波推广到 3×3×3。这个网络在 实际视频分类中取得了很好的效果。

image

另一个工作,牛津大学的双流网络 Two Stream。该方法把光流也看成图像, 然后利用一个流 CNN 来处理光流图像; 另外一个流处理 RGB 图像。这个方法充 分利用了 CNN 对 2 维信号的强大处理能 力,在 UCF 数据库上取得了 88% 的识别 率,相当不错。

image

我们知道在传统非深度学习方法中, 运动轨迹特征取得了很好的效果,这启 发我们能够把运动轨迹也考虑到深度建 模中来,或者说把原来运动轨迹特征和 深度神经网络做结合,发挥二者的强项。 运动轨迹可以对运动物体进行跟踪,并强 调运动显著性区域。卷积神经网络强在 它能够提取通过多层处理语义非常强的 特征,这些特征要比我们传统的 HoG、 HoF 能力强。这就提示我们可以沿着运 动轨迹提取卷积特征。

image

具体怎么做结合?如图所示,左边参 照传统方法提取光流和运动轨迹,右边 利用卷积神经网络抽取视频的深度特征。 抽完特征后沿着这个运动轨迹把这些卷 积特征进行区域分割、编码和池化。当 然,这里还有一个问题就是如何训练神 经网络,我们采取类似双流网络的方法, 但细节上讲又对其做了改进。

image

在实际试验中,我们发现卷积特征是 非常稀疏的,而且和运动区域是显著相关 的;我们还发现编码时引入一些正则化策 略和使用不同层的多尺度特征,对提升识 别率有帮助。这个方法在 UCF 数据库上 取得了 91.5% 的识别率,在当时是最高的。 我们这个工作发表在 CVPR 2015。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享: