视频行为识别方法现状

简介: 人工智能作为社会信息化的战略性技术之一,近年来得到了国内外专家学者的广泛关注。行为识别技术作为人工智能的重点研究方向,已广泛应用于智能监控、人机交互、医疗辅助、虚拟现实等诸多领域。尽管目前该技术已取得很大的研究进展,但仍存在许多挑战,如人体行为识别过程中容易受到噪声等外界因素干扰,导致算法识别率不高、鲁棒性较差。

 视频行为识别领域目前已有大量算法被提出,为了评估这些算法的性能,研究者们收集和创造了大量的数据作为公开数据集,极大地推动了行为识别领域的发展。表 1为目前常用的公开数据集及具体信息。

`_TF{Q(%FA6KEIZO}Z(PG@W.png

      表 1中的数据集均为人类动作视频数据,其中每一个数据集的样本个数、数据集类别及当前的最高准确率如表中内容所示。在研究者们不断扩充这些公开数据集的过程中,行为识别方法也因为这些数据集而有了统一的测试基准。

     在深度学习方法应用到视频行为识别领域前,比较有代表性的传统算法有密集轨迹算法(Dense Trajectories,DT)和改进的密集轨迹算法(Improved Dense Trajectories,IDT),这两个算法均由 Heng Wang 等人在 2013 年提出。它们有着类似的过程,首先在每一帧视频图像上密集采样特征点,再使用光流法跟踪特征点轨迹,接着根据轨迹特征进行费舍尔(Fisher Vector,FV)编码,最后使用支持向量机(Support Vector Machine,SVM)对编码结果进行分类。IDT 方法将 UCF-50 数据集的准确率提高了6.7%。由于背景的运动对光流提取轨迹特征这一过程影响较大,因此给算法带来了一些性能上的瓶颈。近年来随着深度学习在图像、视频领域的应用,研究者们逐渐开始采用一些深度学习方法进行视频行为识别。

      基于深度学习的视频行为识别方法按照特征提取方式的不同可以划分为三类,第一类方法按照时间和空间两路对视频进行特征提取,简称双流法(Two-Stream),由 Simon 等人在 2014 年首次提出。双流法首先提取视频帧之间的光流图,用它模拟视频的帧间运动信息,再分别提取视频原始 RGB 图像和视频帧间光流图像的特征,最后融合两路特征结果进行分类。双流法将 UCF101 数据集上的准确率提高到了88.0%,取得了当时的最佳结果。而 Wang 等人在 2016 年又提出了一种基于双流法的时域分割网络架构(Temporal Segmentation Networks,TSN),这种方法在视频中抽取部分关键帧进行行为识别,减少了密集帧之间的计算冗余,TSN 将 UCF101 上的准确率提高到了 94.2%,将 HMDB51 上的准确率提高到了 69.4%。

      由于双流法需要在模型推理前单独提取光流,这一过程耗费大量时间,因此难以实时识别。而第二类 3D 卷积行为识别方法在一定程度上解决了这一问题。2013 年由Tran 等人首次提出的 C3D(3D Convolutional Networks)方法开创了使用 3D 卷积进行视频行为识别的先河,C3D 方法对连续的视频帧使用3x3x3的卷积核进行特征提取并分类得到结果,在这一过程中三维卷积结合了时间域信息和空间域信息,给视频行为识别方法提供了一种新的思路。该方法将 UCF101 数据集上的准确率提高到了90.4%,达到了当时的最佳效果。而之后的 2017 年,由 Carreira J 等人提出的膨胀 3D卷积方法(Inflated 3D Convolution Network,I3D)在 C3D 的基础之上又做了一系列改进,分双路对 RGB 图像和光流图像作膨胀 3D 卷积,I3D 在 HMDB-51 上的准确率可以达到 80.9%,在 UCF101 上达到了 98.0%。而 2020 年的 X3D探索了帧率、帧数、分辨率、骨干网络的宽度和深度等因素对模型性能的影响,通过 6 个维度的渐进式扩张,使得 Kinetic 数据集上的准确率提升到了 81.9%。          

     由于行为识别是对视频帧序列进行推理,有研究者想到了利用与序列相关的网络模型对其进行计算,因此出现了除双流法和 3D 卷积法之外的第三类方法,这类方法主要采用回归神经网络(Recurrent Neural Networks,RNN)或长短期记忆网络(Long Short-Term Memory,LSTM)方法进行建模,并结合关键点骨架信息或光流特征,将视频看作一个完整的序列输入 RNN 或 LSTM 中得到结果。2014 年,How 等人使用 LSTM 训练机器人动作,实现对 6 种不同行为的分类识别。2016 年,Li Y 等人研究出了一种基于 LSTM 的人体骨架行为识别方法,而之后 Joe 等人提出的LSTM 与双流特征结合的方法,在 Sports-1M 数据集上的准确率达到了 90.5%。2021年,谢昭等人提出的基于时空关注度 LSTM 的行为识别方法,将 UCF101 上的准确率提高到了 98.66%。这类基于 RNN 和 LSTM 的行为识别依赖于固定的骨架和序列结构,因此一般应用于人体行为识别,手势识别和车辆轨迹识别等场景中。

相关文章
|
机器学习/深度学习 监控 算法
目标检测的发展与现状
目标检测领域发展至今已有二十余载,从早期的传统方法到如今的深度学习方法,精度越来越高的同时速度也越来越快,这得益于深度学习等相关技术的不断发展。
1679 0
|
3月前
|
人工智能 安全 图形学
【AI落地应用实战】篡改检测技术前沿探索——从基于检测分割到大模型
在数字化洪流席卷全球的当下,视觉内容已成为信息交流与传播的核心媒介,然而,随着PS技术和AIGC技术的飞速发展,图像篡改给视觉内容安全带来了前所未有的挑战。 本文将探讨篡改检测技术的现实挑战,分享篡改检测技术前沿和最新应用成果。
|
7月前
|
机器学习/深度学习 数据可视化 算法
如何对某个研究方向的领域论文进行分析?如何快速了解某个研究方向的发展现状?如何利用VOSviewer分析研究领域的发展现状?
本文介绍了如何使用VOSviewer软件对特定研究方向的领域论文进行可视化分析,以ESN(Echo State Network)网络研究为例,展示了从安装软件、检索文献、导入数据到进行关键词分析、作者分析和引用量分析的完整流程,帮助用户快速了解并深入研究某个学术领域的发展趋势和现状。
167 0
如何对某个研究方向的领域论文进行分析?如何快速了解某个研究方向的发展现状?如何利用VOSviewer分析研究领域的发展现状?
|
机器学习/深度学习 人工智能 文字识别
AIGC背后的技术分析 | 计算机视觉
深度学习领域技术的飞速发展,给人们的生活带来了很大改变。例如,智能语音助手能够与人类无障碍地沟通,甚至在视频通话时可以提供实时翻译;将手机摄像头聚焦在某个物体上,该物体的相关信息就会被迅速地反馈给使用者;在购物网站上浏览商品时,机器也在同时分析着用户的偏好,并及时个性化地推荐用户可能感兴趣的商品。原先以为只有人类才能做到的事,现在机器也能毫无差错地完成,甚至超越人类,这显然与深度学习的发展密不可分,技术正引领人类社会走向崭新的世界。 PyTorch是当前主流深度学习框架之一,其设计追求最少的封装、最直观的设计,其简洁优美的特性使得PyTorch代码更易理解,对新手非常友好。
299 0
AIGC背后的技术分析 | 计算机视觉
|
机器学习/深度学习 传感器 人工智能
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(下)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(下)
|
机器学习/深度学习 运维 固态存储
AI-无损检测方向速读:基于深度学习的表面缺陷检测方法综述
在真实复杂的工业环境下,表面缺陷检测往往面临诸多挑战,例如存在缺陷成像与背景差异小、对比度低、缺陷尺度变化大且类型多样,缺陷图像中存在大量噪声,甚至缺陷在自然环境下成像存在大量干扰等情形,如图1所示,此时经典方法往往显得束手无策,难以取得较好的效果。
5959 0
|
机器学习/深度学习 编解码 人工智能
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(上)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。在
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(上)
|
机器学习/深度学习 人工智能 算法
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(中)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(中)
|
传感器 算法 安全
车距检测的国内外研究现状
车距测量技术对于减少交通安全事故,提高行车安全具有重要的意义。目前车距检测技术多是以车辆为参照进行测距,检测结果为两车的直线距离,但在弯道情况下则与实际车间距误差较大。
1157 0
车距检测的国内外研究现状
|
机器学习/深度学习 人工智能 监控
深度学习3D人体姿态估计国内外研究现状及痛点
人体姿态估计是从图像或视频信息中获取人体各个关节部位具体位置的过程,目前已被广泛应用到人机交互、视频监控、虚拟现实等领域。基于彩色图像的人体姿态估计算法容易受到颜色、环境等因素的影响,而深度图像在人体着装、肤色和遮挡等影响下具有较好的鲁棒性,能够更好地适应复杂环境的挑战。
4414 0