视频行为识别方法现状

简介: 人工智能作为社会信息化的战略性技术之一,近年来得到了国内外专家学者的广泛关注。行为识别技术作为人工智能的重点研究方向,已广泛应用于智能监控、人机交互、医疗辅助、虚拟现实等诸多领域。尽管目前该技术已取得很大的研究进展,但仍存在许多挑战,如人体行为识别过程中容易受到噪声等外界因素干扰,导致算法识别率不高、鲁棒性较差。

 视频行为识别领域目前已有大量算法被提出,为了评估这些算法的性能,研究者们收集和创造了大量的数据作为公开数据集,极大地推动了行为识别领域的发展。表 1为目前常用的公开数据集及具体信息。

`_TF{Q(%FA6KEIZO}Z(PG@W.png

      表 1中的数据集均为人类动作视频数据,其中每一个数据集的样本个数、数据集类别及当前的最高准确率如表中内容所示。在研究者们不断扩充这些公开数据集的过程中,行为识别方法也因为这些数据集而有了统一的测试基准。

     在深度学习方法应用到视频行为识别领域前,比较有代表性的传统算法有密集轨迹算法(Dense Trajectories,DT)和改进的密集轨迹算法(Improved Dense Trajectories,IDT),这两个算法均由 Heng Wang 等人在 2013 年提出。它们有着类似的过程,首先在每一帧视频图像上密集采样特征点,再使用光流法跟踪特征点轨迹,接着根据轨迹特征进行费舍尔(Fisher Vector,FV)编码,最后使用支持向量机(Support Vector Machine,SVM)对编码结果进行分类。IDT 方法将 UCF-50 数据集的准确率提高了6.7%。由于背景的运动对光流提取轨迹特征这一过程影响较大,因此给算法带来了一些性能上的瓶颈。近年来随着深度学习在图像、视频领域的应用,研究者们逐渐开始采用一些深度学习方法进行视频行为识别。

      基于深度学习的视频行为识别方法按照特征提取方式的不同可以划分为三类,第一类方法按照时间和空间两路对视频进行特征提取,简称双流法(Two-Stream),由 Simon 等人在 2014 年首次提出。双流法首先提取视频帧之间的光流图,用它模拟视频的帧间运动信息,再分别提取视频原始 RGB 图像和视频帧间光流图像的特征,最后融合两路特征结果进行分类。双流法将 UCF101 数据集上的准确率提高到了88.0%,取得了当时的最佳结果。而 Wang 等人在 2016 年又提出了一种基于双流法的时域分割网络架构(Temporal Segmentation Networks,TSN),这种方法在视频中抽取部分关键帧进行行为识别,减少了密集帧之间的计算冗余,TSN 将 UCF101 上的准确率提高到了 94.2%,将 HMDB51 上的准确率提高到了 69.4%。

      由于双流法需要在模型推理前单独提取光流,这一过程耗费大量时间,因此难以实时识别。而第二类 3D 卷积行为识别方法在一定程度上解决了这一问题。2013 年由Tran 等人首次提出的 C3D(3D Convolutional Networks)方法开创了使用 3D 卷积进行视频行为识别的先河,C3D 方法对连续的视频帧使用3x3x3的卷积核进行特征提取并分类得到结果,在这一过程中三维卷积结合了时间域信息和空间域信息,给视频行为识别方法提供了一种新的思路。该方法将 UCF101 数据集上的准确率提高到了90.4%,达到了当时的最佳效果。而之后的 2017 年,由 Carreira J 等人提出的膨胀 3D卷积方法(Inflated 3D Convolution Network,I3D)在 C3D 的基础之上又做了一系列改进,分双路对 RGB 图像和光流图像作膨胀 3D 卷积,I3D 在 HMDB-51 上的准确率可以达到 80.9%,在 UCF101 上达到了 98.0%。而 2020 年的 X3D探索了帧率、帧数、分辨率、骨干网络的宽度和深度等因素对模型性能的影响,通过 6 个维度的渐进式扩张,使得 Kinetic 数据集上的准确率提升到了 81.9%。          

     由于行为识别是对视频帧序列进行推理,有研究者想到了利用与序列相关的网络模型对其进行计算,因此出现了除双流法和 3D 卷积法之外的第三类方法,这类方法主要采用回归神经网络(Recurrent Neural Networks,RNN)或长短期记忆网络(Long Short-Term Memory,LSTM)方法进行建模,并结合关键点骨架信息或光流特征,将视频看作一个完整的序列输入 RNN 或 LSTM 中得到结果。2014 年,How 等人使用 LSTM 训练机器人动作,实现对 6 种不同行为的分类识别。2016 年,Li Y 等人研究出了一种基于 LSTM 的人体骨架行为识别方法,而之后 Joe 等人提出的LSTM 与双流特征结合的方法,在 Sports-1M 数据集上的准确率达到了 90.5%。2021年,谢昭等人提出的基于时空关注度 LSTM 的行为识别方法,将 UCF101 上的准确率提高到了 98.66%。这类基于 RNN 和 LSTM 的行为识别依赖于固定的骨架和序列结构,因此一般应用于人体行为识别,手势识别和车辆轨迹识别等场景中。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
技术分析:AI大模型战场的分化与赛点分析
技术分析:AI大模型战场的分化与赛点分析
|
3月前
|
机器学习/深度学习 人工智能 数据挖掘
【AI 现况分析】AI大模型在欺诈检测中具体的应用
【1月更文挑战第26天】【AI 现况分析】AI大模型在欺诈检测中具体的应用
|
3月前
|
机器学习/深度学习 人工智能 监控
【AI 现况分析】AI 算法偏见和歧视分析
【1月更文挑战第27天】【AI 现况分析】AI 算法偏见和歧视分析
|
机器学习/深度学习 人工智能 算法
AIGC背后的技术分析 | 不止抠图、上色,看人工智能如何影响设计
在人工智能时代下,AR设计、智能硬件设计逐渐发展,设计的改革更多考虑的是如何将真实世界和数字世界进行融合,如何在自己产品上更好地阐释艺术、美感和实用性。
228 0
|
机器学习/深度学习 传感器 人工智能
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(下)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(下)
|
机器学习/深度学习 编解码 人工智能
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(上)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。在
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(上)
|
机器学习/深度学习 人工智能 算法
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(中)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(中)
|
机器学习/深度学习 人工智能 决策智能
研究人员正确理解人工智能决策的三种方法
为了更好地理解他们构建的模型,人工智能研究人员开发了三种主要的解释方法。这些是局部解释方法,只解释一个具体的决定,而不是整个模型的决定,考虑到规模,这可能具有挑战性。
204 0
研究人员正确理解人工智能决策的三种方法
|
存储 人工智能 编解码
视频图像分析研究现状
智能视频分析技术指计算机图像视觉分析技术,是人工智能研究的一个分支,它在图像及图像描述之间建立映射关系,从而使计算机能够通过数字图像处理和分析来理解视频画面中的内容。智能视频分析技术涉及到模式识别、机器视觉、人工智能、网络通信以及海量数据管理等技术。视频智能分析通常可以分为几部分:运动目标的识别、目标跟踪与行为理解。
979 0
|
机器学习/深度学习 传感器 人工智能
智能进化“脱虚向实”,百分点用“决策”定义终极智能
智能进化“脱虚向实”,百分点用“决策”定义终极智能
智能进化“脱虚向实”,百分点用“决策”定义终极智能