用于视频行为识别的双流卷积网络

简介: 论文原称:Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advancesin neural information processing systems. 2014: 568-576

1.论文原称:Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advancesin neural information processing systems. 2014: 568-576


2.主要贡献


  1.提出了一个双流卷积网络模型,其包括了空间网络和时间网络。

  2.在有限的数据集上,提出了一个在多帧密集光流帧上有很好效果的模型。(指的还是那 个双流卷积网络)


 3.提出多任务学习,将模型在两个不同的行为分类数据集上训练,增加了训练数据和提高了训练效果。


3.双流模型结构


image.png

如上图所示,模型分为两部分,spatial stream部分以单帧图片作为输入,temporal stream 部分以多帧图像的的光流作为输入,两部分在经过softmax后进行late fusion。论文提出了两种融合方法,一种是采用平均的方式,另一种是训练一个多分类的SVM分类器,SVM分类器采用L2-Softmax作为输入。


3.1 光流卷积网络


image.png

采用L+1帧图像进行光流计算(这些都是在模型开始之前就计算好了的),得到2L(每2帧图像可得到一个x方向和y方向的光流)帧,这2L帧的顺序是2k-1为x方向,2k为y方向。(论文对L的取值进行了对比实验,发现取10比较好)


  双向光流:在t时刻,取t+L /2作为前向流,t -L/2 作为反向流(这里的反向流在论文里说的是计算相反方向的位移,我不清楚它的意义在哪,有什么用),这样得到的还是2L帧。


  减去平均流:一般来说两帧图片的光流不仅包括了图片内物体的移动,也包括了相机的移动。但模型只需要对物体的移动流进行训练,因此论文提出计算光流的平均值,然后逐点减去这个均值,就避免了相机移动给模型训练带来影响。 模型是固定的尺寸:224x224x2L。(注意这里的L指的是光流,不是原始图像)


关于去除相机运动带来的影响,在iDT论文中专门提出了一种方法,而iDT也成为了后来众多卷积网络SOTA模型必与之进行效果对比的模型。关于iDT论文的解读请扫描文末的二维码关注公众号(CV技术指南)可看到。


数据集:UCF-101和HMDB-51


  4.多任务训练


    数据集太少会导致过拟合,为了避免这种情况,论文设置了两个softmax Layer,一个用在UCF-101上,另一个在HMDB-51,它们有各自的loss函数,两者求和作为训练的loss。


  5.评估


  5.1 空间网络有三种训练方式:


  • 在UCF-101上重新训练


  • 在ILSVRC-2012上预训练,在UCF-101上finetune。


  • 固定预训练网络,只训练最后一层。



image.png


最后结果发现第三种方式效果更好。(这里为了防止过拟合,采用了Dropout)


  5.2 时间网络主要测试了不同的L值得到的效果,前文我忽略的轨迹跟踪方式(感觉没必要提,不是论文的重点)与光流跟踪方式的效果对比,以及有无减去平均流的效果对比。


image.png


得到的结论:L取10比较好,减去平均流能提高效果,但不明显,轨迹流跟踪不及光流效果好


5.3 进行了单向光流和双向光流的效果对比,采用平均融合与训练SVM来融合的效果对比,与传统识别方法的效果对比,以及有无多任务训练的效果对比


image.png


结论:multi-tasks learning是有效果的


image.png


结论:对于卷积网络的融合,采用SVM分类器融合要比取平均的效果更好,双向光流没什么效果。(事实证明,真的没啥用,论文原文说的:using bi-directional flow is not beneficial in the case of ConvNet fusion;)


image.png


结论:它比传统方式识别效果好。


如有错误或不合理之处,欢迎在评论中指正。


相关文章
|
14天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第7天】本文将深入探讨卷积神经网络(CNN)的基本原理,以及它如何在图像识别领域中大放异彩。我们将从CNN的核心组件出发,逐步解析其工作原理,并通过一个实际的代码示例,展示如何利用Python和深度学习框架实现一个简单的图像分类模型。文章旨在为初学者提供一个清晰的入门路径,同时为有经验的开发者提供一些深入理解的视角。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其应用
【9月更文挑战第24天】本文将深入探讨深度学习中的一种重要模型——卷积神经网络(CNN)。我们将通过简单的代码示例,了解CNN的工作原理和应用场景。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的信息。
78 1
|
15天前
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
154 0
|
7天前
|
机器学习/深度学习 人工智能 监控
深入理解深度学习中的卷积神经网络(CNN):从原理到实践
【10月更文挑战第14天】深入理解深度学习中的卷积神经网络(CNN):从原理到实践
28 1
|
11天前
|
机器学习/深度学习 算法 数据挖掘
基于GWO灰狼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了基于分组卷积神经网络(GroupCNN)和灰狼优化(GWO)的时间序列回归预测算法。算法运行效果良好,无水印展示。使用Matlab2022a开发,提供完整代码及详细中文注释。GroupCNN通过分组卷积减少计算成本,GWO则优化超参数,提高预测性能。项目包含操作步骤视频,方便用户快速上手。
|
12天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了一种基于WOA优化的GroupCNN分组卷积网络时间序列预测算法。使用Matlab2022a开发,提供无水印运行效果预览及核心代码(含中文注释)。算法通过WOA优化网络结构与超参数,结合分组卷积技术,有效提升预测精度与效率。分组卷积减少了计算成本,而WOA则模拟鲸鱼捕食行为进行优化,适用于多种连续优化问题。
|
12天前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
29 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
23天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA遗传优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
该算法结合了遗传算法(GA)与分组卷积神经网络(GroupCNN),利用GA优化GroupCNN的网络结构和超参数,提升时间序列预测精度与效率。遗传算法通过模拟自然选择过程中的选择、交叉和变异操作寻找最优解;分组卷积则有效减少了计算成本和参数数量。本项目使用MATLAB2022A实现,并提供完整代码及视频教程。注意:展示图含水印,完整程序运行无水印。
|
2月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
77 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
3天前
|
机器学习/深度学习 人工智能 自动驾驶
深入理解深度学习中的卷积神经网络(CNN)
【10月更文挑战第18天】深入理解深度学习中的卷积神经网络(CNN)
12 0

热门文章

最新文章