openpose
一:PyTorch-Pose is a PyTorch implementation of the general pipeline for 2D single human pose estimation. The aim is to provide the interface of the training/inference/evaluation, and the dataloader with various data augmentation options for the most popular human pose databases (e.g., the MPII human pose, LSP and FLIC).
LSTM
一:基于LSTM的行为识别
TSN
wo-stream 卷积网络对于长范围时间结构的建模无能为力,主要因为它仅仅操作一帧(空间网络)或者操作短片段中的单堆帧(时间网络),因此对时间上下文的访问是有限的。视频级框架TSN可以从整段视频中建模动作。和two-stream一样,TSN也是由空间流卷积网络和时间流卷积网络构成。但不同于two-stream采用单帧或者单堆帧,TSN使用从整个视频中稀疏地采样一系列短片段,每个片段都将给出其本身对于行为类别的初步预测,从这些片段的“共识”来得到视频级的预测结果。在学习过程中,通过迭代更新模型参数来优化视频级预测的损失值(loss value)。
数据集:UCF101:链接:https://gas.graviti.cn/dataset/hello-dataset/UCF101/download
C3D
通过3D卷积操作核去提取视频数据的时间核空间特征。这些3D特征提取器在空间和时间两个维度上操作,因此可以捕捉视频流的运动信息。然后基于3D卷积提取器构造一个3D卷积神经网络,这个架构可以从连续视频帧中产生多通道的信息,然后在每一个通道都分离地进行卷积和下采样操作。最后将所有通道的信息组合起来得到最终的特征描述。C3D网络将完整的视频作为输入,不依赖于任何处理,可以轻松扩展到大数据集。可以应用于行为识别,场景识别,视频相似度分析等领域。具有通用、紧凑、简单、高效的特点。
数据集:UCF101:链接:https://gas.graviti.cn/dataset/hello-dataset/UCF101/download
相关博客:https://blog.csdn.net/weixin_47349091/article/details/113484959