视频行为识别方法现状

简介: 人工智能作为社会信息化的战略性技术之一,近年来得到了国内外专家学者的广泛关注。行为识别技术作为人工智能的重点研究方向,已广泛应用于智能监控、人机交互、医疗辅助、虚拟现实等诸多领域。尽管目前该技术已取得很大的研究进展,但仍存在许多挑战,如人体行为识别过程中容易受到噪声等外界因素干扰,导致算法识别率不高、鲁棒性较差。

 视频行为识别领域目前已有大量算法被提出,为了评估这些算法的性能,研究者们收集和创造了大量的数据作为公开数据集,极大地推动了行为识别领域的发展。表 1为目前常用的公开数据集及具体信息。

`_TF{Q(%FA6KEIZO}Z(PG@W.png

      表 1中的数据集均为人类动作视频数据,其中每一个数据集的样本个数、数据集类别及当前的最高准确率如表中内容所示。在研究者们不断扩充这些公开数据集的过程中,行为识别方法也因为这些数据集而有了统一的测试基准。

     在深度学习方法应用到视频行为识别领域前,比较有代表性的传统算法有密集轨迹算法(Dense Trajectories,DT)和改进的密集轨迹算法(Improved Dense Trajectories,IDT),这两个算法均由 Heng Wang 等人在 2013 年提出。它们有着类似的过程,首先在每一帧视频图像上密集采样特征点,再使用光流法跟踪特征点轨迹,接着根据轨迹特征进行费舍尔(Fisher Vector,FV)编码,最后使用支持向量机(Support Vector Machine,SVM)对编码结果进行分类。IDT 方法将 UCF-50 数据集的准确率提高了6.7%。由于背景的运动对光流提取轨迹特征这一过程影响较大,因此给算法带来了一些性能上的瓶颈。近年来随着深度学习在图像、视频领域的应用,研究者们逐渐开始采用一些深度学习方法进行视频行为识别。

      基于深度学习的视频行为识别方法按照特征提取方式的不同可以划分为三类,第一类方法按照时间和空间两路对视频进行特征提取,简称双流法(Two-Stream),由 Simon 等人在 2014 年首次提出。双流法首先提取视频帧之间的光流图,用它模拟视频的帧间运动信息,再分别提取视频原始 RGB 图像和视频帧间光流图像的特征,最后融合两路特征结果进行分类。双流法将 UCF101 数据集上的准确率提高到了88.0%,取得了当时的最佳结果。而 Wang 等人在 2016 年又提出了一种基于双流法的时域分割网络架构(Temporal Segmentation Networks,TSN),这种方法在视频中抽取部分关键帧进行行为识别,减少了密集帧之间的计算冗余,TSN 将 UCF101 上的准确率提高到了 94.2%,将 HMDB51 上的准确率提高到了 69.4%。

      由于双流法需要在模型推理前单独提取光流,这一过程耗费大量时间,因此难以实时识别。而第二类 3D 卷积行为识别方法在一定程度上解决了这一问题。2013 年由Tran 等人首次提出的 C3D(3D Convolutional Networks)方法开创了使用 3D 卷积进行视频行为识别的先河,C3D 方法对连续的视频帧使用3x3x3的卷积核进行特征提取并分类得到结果,在这一过程中三维卷积结合了时间域信息和空间域信息,给视频行为识别方法提供了一种新的思路。该方法将 UCF101 数据集上的准确率提高到了90.4%,达到了当时的最佳效果。而之后的 2017 年,由 Carreira J 等人提出的膨胀 3D卷积方法(Inflated 3D Convolution Network,I3D)在 C3D 的基础之上又做了一系列改进,分双路对 RGB 图像和光流图像作膨胀 3D 卷积,I3D 在 HMDB-51 上的准确率可以达到 80.9%,在 UCF101 上达到了 98.0%。而 2020 年的 X3D探索了帧率、帧数、分辨率、骨干网络的宽度和深度等因素对模型性能的影响,通过 6 个维度的渐进式扩张,使得 Kinetic 数据集上的准确率提升到了 81.9%。          

     由于行为识别是对视频帧序列进行推理,有研究者想到了利用与序列相关的网络模型对其进行计算,因此出现了除双流法和 3D 卷积法之外的第三类方法,这类方法主要采用回归神经网络(Recurrent Neural Networks,RNN)或长短期记忆网络(Long Short-Term Memory,LSTM)方法进行建模,并结合关键点骨架信息或光流特征,将视频看作一个完整的序列输入 RNN 或 LSTM 中得到结果。2014 年,How 等人使用 LSTM 训练机器人动作,实现对 6 种不同行为的分类识别。2016 年,Li Y 等人研究出了一种基于 LSTM 的人体骨架行为识别方法,而之后 Joe 等人提出的LSTM 与双流特征结合的方法,在 Sports-1M 数据集上的准确率达到了 90.5%。2021年,谢昭等人提出的基于时空关注度 LSTM 的行为识别方法,将 UCF101 上的准确率提高到了 98.66%。这类基于 RNN 和 LSTM 的行为识别依赖于固定的骨架和序列结构,因此一般应用于人体行为识别,手势识别和车辆轨迹识别等场景中。

相关文章
|
8月前
|
人工智能 测试技术 持续交付
现代软件测试方法探析及应用前景展望
随着信息技术的迅猛发展,软件在我们日常生活和工作中扮演着愈发重要的角色。而为了保证软件质量和稳定性,软件测试显得尤为重要。本文将探讨现代软件测试方法的演变和应用前景,并分析其在不断变化的技术环境下的发展趋势。
|
8月前
|
机器学习/深度学习 监控 安全
智能化视野下的守卫者:基于深度学习的图像识别技术在智能监控领域的革新应用
【4月更文挑战第9天】 随着人工智能技术的飞速发展,深度学习已经成为了推动计算机视觉进步的重要力量。尤其在智能监控领域,基于深度学习的图像识别技术正逐步转变着传统监控系统的功能与效率。本文旨在探讨深度学习技术如何赋能智能监控,提高对场景理解的准确性,增强异常行为检测的能力,并讨论其在实际部署中所面临的挑战和解决方案。通过深入分析,我们揭示了深度学习在智能监控中的应用不仅优化了安全防范体系,也为城市管理和公共安全提供了有力的技术支持。
|
机器学习/深度学习 监控 算法
目标检测的发展与现状
目标检测领域发展至今已有二十余载,从早期的传统方法到如今的深度学习方法,精度越来越高的同时速度也越来越快,这得益于深度学习等相关技术的不断发展。
1651 0
|
8月前
|
机器学习/深度学习 传感器 算法
【OpenCV】告别人工目检:深度学习技术引领工业品缺陷检测新时代
【OpenCV】告别人工目检:深度学习技术引领工业品缺陷检测新时代
|
8月前
|
机器学习/深度学习 人工智能 监控
【AI 现况分析】AI 算法偏见和歧视分析
【1月更文挑战第27天】【AI 现况分析】AI 算法偏见和歧视分析
|
存储 机器学习/深度学习 人工智能
展望AI时代,把握文档图像智能分析与处理的未来
二、视觉- 语言预训练模型及迁移学习方法 三、智能文档处理技术在工业界的应用与挑战
480 2
|
机器学习/深度学习 人工智能 自然语言处理
展望AI时代,把握文档图像智能分析与处理的未来1
前言 CCIG技术论坛 内容回顾及探讨 一、人工智能大模型时代的文档识别与理解 1.1 文档分析与识别 介绍 1.2 文档识别历史回顾 1.3 文档的种类与研究问题 1.4 文档识别与理解研究现状 1.5 大模型带来的挑战与机遇 1.5.1 ChatGPT 1.5.2 CPT-4 1.6 文档识别与理解 总结与展望
399 0
|
机器学习/深度学习 传感器 人工智能
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(下)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(下)
|
机器学习/深度学习 人工智能 算法
AIGC背后的技术分析 | 不止抠图、上色,看人工智能如何影响设计
在人工智能时代下,AR设计、智能硬件设计逐渐发展,设计的改革更多考虑的是如何将真实世界和数字世界进行融合,如何在自己产品上更好地阐释艺术、美感和实用性。
279 0
|
机器学习/深度学习 人工智能 算法
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(中)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(中)