用于视频行为识别的双流卷积网络

简介: 论文原称:Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advancesin neural information processing systems. 2014: 568-576

1.论文原称:Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advancesin neural information processing systems. 2014: 568-576


2.主要贡献


  1.提出了一个双流卷积网络模型,其包括了空间网络和时间网络。

  2.在有限的数据集上,提出了一个在多帧密集光流帧上有很好效果的模型。(指的还是那 个双流卷积网络)


 3.提出多任务学习,将模型在两个不同的行为分类数据集上训练,增加了训练数据和提高了训练效果。


3.双流模型结构


image.png

如上图所示,模型分为两部分,spatial stream部分以单帧图片作为输入,temporal stream 部分以多帧图像的的光流作为输入,两部分在经过softmax后进行late fusion。论文提出了两种融合方法,一种是采用平均的方式,另一种是训练一个多分类的SVM分类器,SVM分类器采用L2-Softmax作为输入。


3.1 光流卷积网络


image.png

采用L+1帧图像进行光流计算(这些都是在模型开始之前就计算好了的),得到2L(每2帧图像可得到一个x方向和y方向的光流)帧,这2L帧的顺序是2k-1为x方向,2k为y方向。(论文对L的取值进行了对比实验,发现取10比较好)


  双向光流:在t时刻,取t+L /2作为前向流,t -L/2 作为反向流(这里的反向流在论文里说的是计算相反方向的位移,我不清楚它的意义在哪,有什么用),这样得到的还是2L帧。


  减去平均流:一般来说两帧图片的光流不仅包括了图片内物体的移动,也包括了相机的移动。但模型只需要对物体的移动流进行训练,因此论文提出计算光流的平均值,然后逐点减去这个均值,就避免了相机移动给模型训练带来影响。 模型是固定的尺寸:224x224x2L。(注意这里的L指的是光流,不是原始图像)


关于去除相机运动带来的影响,在iDT论文中专门提出了一种方法,而iDT也成为了后来众多卷积网络SOTA模型必与之进行效果对比的模型。关于iDT论文的解读请扫描文末的二维码关注公众号(CV技术指南)可看到。


数据集:UCF-101和HMDB-51


  4.多任务训练


    数据集太少会导致过拟合,为了避免这种情况,论文设置了两个softmax Layer,一个用在UCF-101上,另一个在HMDB-51,它们有各自的loss函数,两者求和作为训练的loss。


  5.评估


  5.1 空间网络有三种训练方式:


  • 在UCF-101上重新训练


  • 在ILSVRC-2012上预训练,在UCF-101上finetune。


  • 固定预训练网络,只训练最后一层。



image.png


最后结果发现第三种方式效果更好。(这里为了防止过拟合,采用了Dropout)


  5.2 时间网络主要测试了不同的L值得到的效果,前文我忽略的轨迹跟踪方式(感觉没必要提,不是论文的重点)与光流跟踪方式的效果对比,以及有无减去平均流的效果对比。


image.png


得到的结论:L取10比较好,减去平均流能提高效果,但不明显,轨迹流跟踪不及光流效果好


5.3 进行了单向光流和双向光流的效果对比,采用平均融合与训练SVM来融合的效果对比,与传统识别方法的效果对比,以及有无多任务训练的效果对比


image.png


结论:multi-tasks learning是有效果的


image.png


结论:对于卷积网络的融合,采用SVM分类器融合要比取平均的效果更好,双向光流没什么效果。(事实证明,真的没啥用,论文原文说的:using bi-directional flow is not beneficial in the case of ConvNet fusion;)


image.png


结论:它比传统方式识别效果好。


如有错误或不合理之处,欢迎在评论中指正。


相关文章
|
1月前
|
机器学习/深度学习 计算机视觉 Python
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力本文提出了一种简单且高效的卷积神经网络(ConvNets)注意力模块——SimAM。与现有模块不同,SimAM通过优化能量函数推断特征图的3D注意力权重,无需添加额外参数。SimAM基于空间抑制理论设计,通过简单的解决方案实现高效计算,提升卷积神经网络的表征能力。代码已在Pytorch-SimAM开源。
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络:从理论到实践
【10月更文挑战第35天】在人工智能的浪潮中,深度学习技术以其强大的数据处理能力成为科技界的宠儿。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,在图像识别和视频分析等领域展现出了惊人的潜力。本文将深入浅出地介绍CNN的工作原理,并结合实际代码示例,带领读者从零开始构建一个简单的CNN模型,探索其在图像分类任务中的应用。通过本文,读者不仅能够理解CNN背后的数学原理,还能学会如何利用现代深度学习框架实现自己的CNN模型。
|
27天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第36天】探索卷积神经网络(CNN)的神秘面纱,揭示其在图像识别领域的威力。本文将带你了解CNN的核心概念,并通过实际代码示例,展示如何构建和训练一个简单的CNN模型。无论你是深度学习的初学者还是希望深化理解,这篇文章都将为你提供有价值的见解。
|
27天前
|
数据可视化 算法 安全
员工上网行为管理软件:S - PLUS 在网络统计分析中的应用
在数字化办公环境中,S-PLUS 员工上网行为管理软件通过精准的数据收集、深入的流量分析和直观的可视化呈现,有效帮助企业管理员工上网行为,保障网络安全和提高运营效率。
27 1
|
1月前
|
机器学习/深度学习 监控 自动驾驶
卷积神经网络有什么应用场景
【10月更文挑战第23天】卷积神经网络有什么应用场景
89 2
|
1月前
|
机器学习/深度学习 自然语言处理 算法
什么是卷积神经网络
【10月更文挑战第23天】什么是卷积神经网络
48 1
|
1月前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
79 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第21天】本文旨在深入探讨深度学习领域的核心组成部分——卷积神经网络(CNN)。通过分析CNN的基本结构、工作原理以及在图像识别、语音处理等领域的广泛应用,我们不仅能够理解其背后的技术原理,还能把握其在现实世界问题解决中的强大能力。文章将用浅显的语言和生动的例子带领读者一步步走进CNN的世界,揭示这一技术如何改变我们的生活和工作方式。
|
2月前
|
机器学习/深度学习 人工智能 监控
深入理解深度学习中的卷积神经网络(CNN):从原理到实践
【10月更文挑战第14天】深入理解深度学习中的卷积神经网络(CNN):从原理到实践
175 1
|
28天前
|
机器学习/深度学习 人工智能 自动驾驶
深入解析深度学习中的卷积神经网络(CNN)
深入解析深度学习中的卷积神经网络(CNN)
42 0