C3D介绍
通过3D卷积操作核去提取视频数据的时间核空间特征。这些3D特征提取器在空间和时间两个维度上操作,因此可以捕捉视频流的运动信息。然后基于3D卷积提取器构造一个3D卷积神经网络,这个架构可以从连续视频帧中产生多通道的信息,然后在每一个通道都分离地进行卷积和下采样操作。最后将所有通道的信息组合起来得到最终的特征描述。C3D网络将完整的视频作为输入,不依赖于任何处理,可以轻松扩展到大数据集。可以应用于行为识别,场景识别,视频相似度分析等领域。具有通用、紧凑、简单、高效的特点。C3D的速度应该是在视频帧无重叠的情况下获得的,在NVIDIA 1080 的GPU上,可以达到600帧以上的速度。
由卷积、池化、全连接层组成。
github获取
https://github.com/Niki173/C3D
数据集下载
这里用的是UCF101数据集,共101类,里面全是avi视频,每个类别都有一个动作名称,也就是它的label。
数据预处理
将UCF101数据集通过代码里面的dataset.py划分为train、val、test三个文件夹,每个文件夹存放的都是由视频获取的图片,每两帧保存一张。具体细节如下: