视频目标检测

简介: 由于光照变化、物体遮挡和复杂背景条件等众多因素的影响,目标检测一直是机器视觉领域最具有挑战性的问题。

    视频目标检测是图像目标检测在视频领域的自然延伸,因为视频的本质还是连续的图像,视频目标检测的基本原理与图像目标检测是一样的。视频数据由大量连续图像组成,数量多,相邻图像之间的像素变化较小,存在大量的冗余信息。若将视频数据逐帧分解,直接输入图像目标检测的模型进行训练,庞大的计算量会严重影响检测速度,导致检测结果毫无实际应用的价值,且无法解决视频数据运动模糊、视频离焦、不寻常的姿态或物体遮挡等问题。

     当人们不确定一个对象的身份时,他们会从其他相关信息中寻找一个与当前对象具有高度语义相似性的不同对象,并将其分配到一起。视频包含了关于相同对象实例的更丰富的信息,例如,它在不同姿势和不同视角下的外观,因此视频目标检测器应该比静态图像检测器更强大,关键的挑战是设计一个模型,充分利用当前图像帧的时间上下文信息来提高检测精度和速度。

     2016 年,微软亚洲研究院的代季峰团队提出深度特征流算法 DFF(Deep Feature Flow),核心思想是采用简单的固定间隔算法选取一系列稀疏的关键帧,以耗时费力的深度神经网络提取特征;对于占比更大的非关键帧,利用光流网络(FlowNet)计算上一个关键帧和当前非关键帧之间的光流场(flow field),然后通过光流场将关键帧的深度卷积特征图传播到当前帧,最后将所有的特征图送入任务网络(Task Network)获取检测结果。利用光流网络比常用的提取特征的卷积神经网络计算量更小的优点,DFF 算法引入 FlowNet 来计算非关键帧的特征图,以此减少模型的计算量。当关键帧间隔帧数为 10 时,DFF 算法的检测精度 mAP 比基准方法下降了 0.8,但运行速度提升了约 5 倍,达到了 20.25FPS。

      由于视频中的物体检测会受到各种环境因素的影响,难以成功检测单帧图像的目标,代季峰团队在 DFF 的基础上提出新算法 FGFA[26](Flow-Guided Feature Aggregation),并在 2017 年的 ILSVRC 比赛中斩获冠军,首先将图像送入特征提取网络得到相应的特征图,在将相邻帧在运动路径上前后K 帧的特征图传播到当前帧中,并引入一个自适应权重网络将传播过来的特征聚合到当前帧的特征中,以增强当前帧的特征表示,提高当前帧的特征质量。FGFA是一个典型的以速度换取检测精度的算法,当关键帧间隔帧数为 10 时,检测指标mAP 提升至 76.3%,相对于基准算法的 mAP 值增加了 2.9%,但是单帧的平均检测时间从 288ms 上升到了 733ms。

      高性能的目标检测依赖于昂贵的卷积网络来计算特征,这常常会给那些需要实时从视频流中检测出目标的应用带来重大挑战,解决这一问题的关键是如何保持竞争性能的同时降低计算成本。2018 年香港中文大学商汤科技联合实验室公布了 ST-Lattice(尺度-时间网格)算法,先在稀疏的关键帧上得到检测结果,然后利用传播和细化单元(Propagation and Refinement Units)对检测结果进行跨时间、跨尺度的传播,直到到达输出节点,以此辅助非关键帧的检测,最后使用 tube-level分类器对结果进行位置修正。在 ImageNet VID 数据集上,ST-Lattice 算法作为精度/速度的折衷,可以达到 79.6mAP(20fps)和  79.0mAP(62fps)的性能。

4@@86XK(_5_MY[HYM@~WTN3.png

     上图呈现了尺度-时间网格算法的详细过程,途中的每个节点表示一定尺度和时间点的检测结果,每条边则表示从一个节点到另一个节点的一次性操作。水平方向的操作 T(蓝色)表示时间传播,采用 MHI 的方式有效的计算和保留足够的运动信息,用以处理帧间较大的运动位移,粗略的定位到中间时间处的目标,此操作只关注物体的运动,不考虑预测结果和 Ground True 之间的偏移量。垂直方向(绿色)代表从低分辨率到高分辨率的空间细化,用于弥补操作 T 的影响,通过从粗到细的方法回归边界盒的偏移量,以此实现更精准的定位。对于一个视频,只在稀疏的关键帧上进行卷积操作提取特征并给出最后的检测结果,将结果沿着预定义的路径传播到最底层,底部的最终结果覆盖了所有时间点。

     2018 年,Fanyi  Xiao 和  Yong  Jae  Lee 在文献中时空记忆网络(spatial-temporal memory network, STMN),提出一种新的 RNN 结构,为视频对象检测建模对象随时间变化的外观和运动信息。跨帧的记忆网络传递信息会带来定位误差,可利用 Match Trans 机制建模目标运动,使用匹配变换去对齐帧到帧的特征,使精度达到了当时的领先水准。

    Gedas Bertasius 等人提出的时空采样网络(Spatiotemporal Sampling Networks, STSN),采用 Deformable Conv 结构提取相邻帧空间特征来执行视频目标检测。2020年,出现了可学习的时空采样模块[30](Learnable Spatio-Temporal Sampling, LSTS),利用 ResNet-101 作为 backbone 对关键帧进行处理,而非关键帧采用轻量级的网络,可实现精度和速度的极致,实现在帧间传播高级特征的目的。此文有稀疏递归特征更新(SRFU)和密集特征聚合(DFA)两个网络模块,SRFU 用于维持记忆特征来捕获时间关系,记忆特征会在关键帧处进行迭代更新,DFA 传播关键帧的记忆特征以此增强和丰富非关键帧的低级特征。LSTS 模块嵌入到 SRFU 和 DFA 结构中,以便在帧间准确的传播和对齐特征。LSTS 模块思想:在特征Ft 上进行随机采样,利用采样位置计算嵌入的特征 f(Ft) 和 g(Ft+k)相对应的相似度权重,计算出权重,并对𝐹进行特征融合获得传播特征F'(t+k),在训练过程中根据最终的检测损失迭代更新采样的位置。

     上述算法均采用深层网络 ResNet-101 作为特征提取的网络,然后使用 Faster R-CNN 或 R-FCN 作为检测网络,这种两阶段的检测方案可以有效的提高视频目标检测的精确度,但对于速度方面有欠缺。本文所提出的方案利用一阶段的检测网络对稀疏的关键帧进行检测,会牺牲些许的精度以寻求速度的提升,实验结果表明所提算法在确保一定精确的情况下可以达到实时的效果。

相关文章
|
3月前
|
存储 缓存 数据库
如何开发人事及OA管理系统的全局基础设置板块?(附架构图+流程图+代码参考)
在企业数字化转型中,人事管理系统(HRM)与办公自动化系统(OA)已成为核心工具。本文详解全局基础设置的三大核心模块:部门岗位基础表、工作日历和工作地点基础表,涵盖功能设计、业务流程、开发技巧与代码示例,助力企业优化系统架构,提升管理效率与扩展性。
|
机器学习/深度学习 编解码 算法
【论文理解】ICCV2021-视频中小目标检测Dogfight
论文地址:https://arxiv.org/abs/2108.02092目标:在无人机飞行过程中捕获的背景杂乱的画面中检测其他无人机挑战:任意的移动(相机移动,目标也移动)小尺寸,只占画面像素的0.05%~0.07%(PASCAL VOC (22.62%) and ImageNet (19.94%))形状变换(拍摄角度不同,拍摄的无人机形状不同)遮挡基于region-proposal的方法无法捕
|
11月前
|
数据采集 前端开发 物联网
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
本文介绍了一个基于多模态大模型的医疗图像诊断项目。项目旨在通过训练一个医疗领域的多模态大模型,提高医生处理医学图像的效率,辅助诊断和治疗。作者以家中老人的脑部CT为例,展示了如何利用MedTrinity-25M数据集训练模型,经过数据准备、环境搭建、模型训练及微调、最终验证等步骤,成功使模型能够识别CT图像并给出具体的诊断意见,与专业医生的诊断结果高度吻合。
21203 162
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
|
机器学习/深度学习 存储 人工智能
【机器学习】GBDT (Gradient Boosting Decision Tree) 深入解析
GBDT,全称为Gradient Boosting Decision Tree,即梯度提升决策树,是机器学习领域中一种高效且强大的集成学习方法。它通过迭代地添加决策树以逐步降低预测误差,从而在各种任务中,尤其是回归和分类问题上表现出色。本文将深入浅出地介绍GBDT的基本原理、算法流程、关键参数调整策略以及其在实际应用中的表现与优化技巧。
3900 2
|
数据采集 关系型数据库 MySQL
2024年最全python进阶系列- 04 集合,2024年最新哈希表 面试
2024年最全python进阶系列- 04 集合,2024年最新哈希表 面试
|
安全 5G 网络性能优化
IEEE802.1, IEEE802.3和IEEE802.11的分类(仅为分类)
IEEE802.1, IEEE802.3和IEEE802.11的分类(仅为分类)
986 4
|
开发者
鸿蒙next版开发:ArkTS组件通用属性(组件标识)
在HarmonyOS 5.0中,ArkTS的组件标识(ID)为每个组件提供唯一标识符,方便开发者引用和操作组件。本文详细解读了id和key属性的使用方法,并提供了示例代码,展示了如何通过组件标识获取属性、发送事件及动态操作组件。
809 1
|
人工智能 算法 自动驾驶
人工智能的伦理困境:当机器拥有道德决策权
随着人工智能技术的飞速发展,机器逐渐在多个领域承担起人类的工作,甚至在某些情境下开始参与或主导决策过程。然而,当AI涉足需要道德判断的领域时,一系列复杂的伦理问题随之浮现。本文将探讨AI进行道德决策时所面临的挑战,分析可能的后果,并提出未来研究方向。
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
计算机视觉 索引
YOLOv5的Tricks | 【Trick14】YOLOv5的val.py脚本的解析
YOLOv5的Tricks | 【Trick14】YOLOv5的val.py脚本的解析
1760 0
YOLOv5的Tricks | 【Trick14】YOLOv5的val.py脚本的解析