社区供稿 | 视频目标检测(IJCAI 2023) 流感知优化 DAMO-StreamNet 开源

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 传统视频目标检测(Video Object Detection, VOD)任务以一段视频作为输入,利用视频的时序信息进行目标检测,并最终输出每一帧视频帧的检测结果。

论文&代码


论文链接:

https://arxiv.org/abs/2303.17144


开源直达:

https://modelscope.cn/models/MorningsunLee/cv_cspnet_video-object-detection_damo-streamnet/summary


https://github.com/zhiqic/DAMO-StreamNet


背景介绍


传统视频目标检测(Video Object Detection, VOD)任务以一段视频作为输入,利用视频的时序信息进行目标检测,并最终输出每一帧视频帧的检测结果。其相比图像目标检测(Image Object Detection, IOD)任务,优势在于能够利用视频的时序信息,对运动模糊、图像失焦、遮挡、物体姿态变化等困难的场景具有更强的鲁棒性。然而,传统的VOD和IOD都是离线(offline)的检测,即仅考虑算法的检测精度,未考虑算法的延时。


为了更加贴近现实场景,ECCV 2020 论文《Towards Streaming Perception》[1](获得Best Paper Honorable Mention)首次提出了流感知Streaming Perception)任务,该任务作为VOD的一个细分方向,提出了流平均精度(Streaming Average Precision, sAP)指标,衡量算法的在线(online)检测能力,即同时衡量算法的精度和延时。具体地,如下图所示,离线目标检测算法对T 时刻的视频帧进行检测,得到轿车检测结果,即橙色的矩形框,而因为算法处理存在一定的延时,此时现实环境已经处于T+Latency 时刻,轿车的实际位置也已经发生变化,即红色的矩形框。由此可见,实际应用中,算法进行目标检测时,应同时考虑环境变化,这正是在线检测(如Streaming Perception任务)考虑的事情,这一类的算法在T 时刻的检测结果,橙色的矩形框,与T+Latency 时刻的实际环境,红色的矩形框,能有较好的吻合。

图1 离线检测与在线检测对比


技术难点


早期的方法如Streamer[1]和Adaptive Streamer[2]尝试通过提出一些策略,来进行精度和延时之间的平衡,但是这些方法精度较低。CVPR 2022 oral工作StreamYOLO[3]通过引入强大的实时目标检测器YOLOX[4],将Streaming Perception任务简化为一个预测任务。


为了更好地理解为什么引入实时目标检测器能够简化Streaming Perception任务,需要先介绍一下此任务的评价指标。流平均精度(Streaming Average Precision, sAP)可以分为两个部分理解,其中"Average Precision"和通用检测一致,而"Streaming"表示,某个时刻的预测结果,会与算法处理完成后下一时刻的真实值(Ground True, GT)匹配,并计算对应的"Average Precision"。具体地,如下图所示,对于非实时的算法,It 时刻的预测结果在下一时刻It+1到来之后才能得到,如下图左半部分绿色箭头所示,因此与该预测结果配对的是It+2时刻的GT,而It+1时刻的GT,会默认使用前一次预测结果进行配对,这样一来,算法一方面“错过”了It+1时刻的GT,另一方面需要预测更“远”的It+2时刻的真实环境,因此对算法的挑战更大。相对地,对于实时的算法,It时刻的预测结果在下一时刻It+1到来之前可以得到,如下图右半部分绿色箭头所示,因此与该预测结果配对的是It+1时刻的GT,该情况下,算法一方面不会“错过”任何时刻的GT,另一方面仅需要预测下一时刻的真实环境。因此说,引入实时算法能够简化Streaming Perception任务为一个对下一帧真实环境的预测任务

图2 非实时方法和实时方法的评估示意图

虽然StreamYOLO简化了Streaming Perception任务,但是它仅使用当前帧和前一帧两帧的短时序信息作为输入,难以表征一些复杂的运动状态。在实际自动驾驶环境中,经常会出现以下的,除了匀速直线运动以外的运动状态以及情况:1)非匀速运动(比如加速超车);2)非直线运动(比如转弯);3)遮挡以及小目标。


因此,我们在之前的工作中提出了LongShortNet[5],将长时序信息引入到Streaming Perception任务中,并提出了长短时序融合模块,在一些困难场景下,能够达到比StreamYOLO更高的精度。


在LongShortNet中,存在一个遗留的问题:我们发现当使用大尺寸输入(1200x1920)的时候,模型对大物体的检测精度sAPl反而有所下降,我们推测是因为网络的感受也不足造成大物体的检测精度下降,如下图3所示。
因此,在本文中,我们提出了DAMO-StreamNet,一方面,探索如何通过增加网络的感受野来提升模型对大物体的检测精度,进而提升最终的整体精度;另一方面,我们也探索了如何引入更多的监督信息,来进一步提升模型的精度。

图3 感受野不足示意图


方法介绍


DAMO-StreamNet的整体结构如下图所示:

图4 DAMO-StreamNet示意图


主要的贡献点如下:


  1. 我们提出动态感受野FPN (Dynamic Receptive Field FPN, DRFPN),使网络具备可变的感受野,从而提升在大分辨率下对大物体的检测性能;
  2. 我们提出了一种非对称的蒸馏方案 (Asymmetric Knowledge Distillation, AK-Distillation),在训练阶段利用教师网络对“未来信息”的知识,进一步提升学生网络的精度;
  3. 我们还提出了一种新的评估方式 (K-step sAP),评估模型对于更长时序的预测能力。


此外,我们仍然采用和LongShortNet一致的双支路结构,且仍然保持模型的实时性前提。


Dynamic Receptive Field FPN (DRFPN)

DRFPN最主要的贡献在于:使网络具备可变(可学习)的感受野,其结构如下图所示:

图5 PAFPN和DRFPN示意图

我们知道PAFPN[6]是检测网络中基础的neck结构,它采用了top-down和bottom-up结合的形式,另外,GFPN[7]验证了neck结构对于检测网络的重要性,因此,我们在PAFPN的基础上进行了如下几点改进,以适应我们的需求:


  1. 我们提出了DR模块,替换PAFPN原来的CSP模块,主要的改进点有:1)引入可变形卷积,使网络具备可学习的感受野;2)使用重参数化卷积[8],使网络具备更强的表征能力;3)引入了ELAN[9]结构,增强特征融合。

  2. 另外,我们增加了bottom-up的辅助连接支路,进一步利用低层特征的细节信息对高层特征进行补充。


Asymmetric Knowledge Distillation (AK-Distillation)

AK-Distillation最主要的贡献点在于:利用教师网络对“未来信息”的学习,来指导学生网络的学习,最终提升其预测的能力


具体地,有视频序列S={It ,…It Nδt},其中Nδt分别表示输入历史视频帧的数量以及历史视频帧的间隔步长(其含义和LongShortNet一致),那么DAMO-StreamNet可以用下面的公式表示:T=F(S,W)



其中,W表示网络的权重而T表示网络最终输出的特征图,可以通过解码操作Decode(T)来得到网络最终的预测结果R(包括目标物体的位置、类别和置信度)。在训练阶段,学生网络可以用下面的公式表示:Tstu=Fstu(S,Wstu


另外,教师网络可以用下面的公式表示:Tstu=Fstu(It+1,Wtea

WstuWtea分别表示学生网络和教师网络的权重参数。可以看到,学生网络以S作为输入,而教师网络以It+1作为输入,这就是“非对称”(Asymmetric)的核心思想,即教师网络是一个以未来帧作为输入的静态预测网络(所谓的静态预测网络就是以当前帧作为输入,预测当前帧的结果),教师网络和学生网络的输入是不一致的(以往大部分的蒸馏工作教师网络和学生网络的输入都是一致的仅网络结构上有差别),最终教师网络将对未来帧预测的能力“传授”给学生网络
我们利用教师网络和学生网络输出的特征图进行蒸馏,如下所示:


K-step Streaming Metric

K-step sAP的核心思想在于:衡量网络对更长的时序的预测能力(之前的StreamYOLO和LongShortNet都只是针对下一帧进行预测)。


图6 不同的K取值下K-step匹配示意图

其中,(a)和(b)是对原始的sAP的展示(对应non-real-time和real-time),此时相当于K=1,而(c)展示的是K=2的情况,依此类推,(d)表示K去更大的值的时候,K-step sAP将衡量模型对更长时序的预测能力。


实验结果


本文基于Streaming Perception任务的公开数据集,Argoverse-HD[1],进行算法实验,并与StreamYOLO&LongShortNet等工作保持相同的训练/验证集划分。同样使用small/middle/large三种尺寸的网络,分别对应DAMO-StreamNet-S/DAMO-StreamNet-M/DAMO-StreamNet-L。


SOTA对比

首先,与目前SOTA方法的对比如下表所示,DAMO-StreamNet在常规分辨率((600, 960))下,取得了37.8%的sAP,而在高分辨率((1200, 1920))下,取得了43.3%的sAP,均超过了目前的SOTA精度。且值得注意的是,DAMO-StreamNet在高分辨率的情况下,sAPl指标有了明显提升,这也证明了DRFPN引入可变感受野的作用。

表1 与SOTA对比


消融实验

首先,我们对DRFPN进行了消融实验,我们在StreamYOLO和LongShortNet的基础上,加上了DRFPN,如下表所示,可以看到,对于不同量级的网络,DRFPN都能带来精度的提升。


表2 DRFPN消融实验


我们对Nδt的取值进行了消融实验,结果如下表所示,相关的观察和LongShortNet类似。其中,(1, 1)等价于StreamYOLO,由此可见,引入长时序信息有助于算法对复杂运动的预测,从而提升最终的精度。

表3 N和delta t消融实验


我们同时对AK-Distillation进行了消融实验,在大部分情况下,AK-Distillation可以为学生网络带来进一步的精度提升。

表4 AK-Distillation消融实验


我们还对K-step进行了实验,可以看到,输入更长时序(N=2/3)的情况下,在各个step下均能有更优的表现,但是我们发现,N=1和N=2/3的精度差距,并没有随着K的增加而增大,说明对于更长时序的预测是很有挑战的,值得更多的探索。

表5 K-step sAP实验


最后,我们对模型的推理时效也做了分析,虽然相比LongShortNet速度有所下降,但模型仍然保持了实时性的前提。

表6 模型推理速度分析


模型传送门


流感知模型


流感知模型DAMO-StreamNet:https://modelscope.cn/models/MorningsunLee/cv_cspnet_video-object-detection_damo-streamnet/summary


流感知模型LongShortNet:https://modelscope.cn/models/damo/cv_cspnet_video-object-detection_longshortnet/summary


流感知模型StreamYOLO:https://modelscope.cn/models/damo/cv_cspnet_video-object-detection_streamyolo/summary


检测相关模型


实时目标检测模型YOLOX:https://modelscope.cn/models/damo/cv_cspnet_image-object-detection_yolox/summary


高精度目标检测模型DINO:https://modelscope.cn/models/damo/cv_swinl_image-object-detection_dino/summary


实时目标检测模型DAMO-YOLO:https://modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary


垂直行业目标检测模型:https://modelscope.cn/models?page=1&tasks=vision-detection-tracking%3Adomain-specific-object-detection&type=cv



关键点相关模型


2D人体关键点检测模型-HRNet: https://modelscope.cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/summary


2D人脸关键点检测模型-MobileNet:https://modelscope.cn/models/damo/cv_mobilenet_face-2d-keypoints_alignment/summary


2D手部关键点检测模型-HRNet:https://modelscope.cn/models/damo/cv_hrnetw18_hand-pose-keypoints_coco-wholebody/summary


3D人体关键点检测模型-HDFormer:https://modelscope.cn/models/damo/cv_hdformer_body-3d-keypoints_video/summary


3D人体关键点检测模型-TPNet:https://modelscope.cn/models/damo/cv_canonical_body-3d-keypoints_video/summary

更多模型详见 ModelScope 主页:https://modelscope.cn/home


检测套件开发工具


ModelScope社区视觉检测开发套件AdaDethttps://github.com/modelscope/AdaDet



参考文献

[1] M. Li and D. Ramanan, “Towards streaming perception,” in ECCV, 2020, vol. 12347, pp. 473–488.

[2] A. Ghosh, A. Nambi, A. Singh, and et al., “Adaptive streaming perception using deep reinforcement learning,” CoRR, vol. abs/2106.05665, 2021.

[3] J. Yang, S. Liu, Z. Li, and et al., “Real-time object detection for streaming perception,” in CVPR, 2022, pp. 5385–5395.

[4] Z. Ge, S. Liu, F. Wang, and et al., “YOLOX: exceeding YOLO series in 2021,” CoRR, vol. abs/2107.08430, 2021.

[5] C. Li, Z. Cheng, J. He, and et al., “Longshortnet: Exploring temporal and semantic features fusion in streaming perception,” ICASSP, 2023.

[6] S. Liu, L. Qi, H. Qin, and et al., “Path aggregation network for instance segmentation,” CVPR, 2018.

[7] Y. Jiang, Z. Tan, J. Wang, and et al., “GiraffeDet: A heavy-neck paradigm for object detection,” ICLR, 2022.

[8] X. Ding, X. Zhang, N. Ma, and et al., “Repvgg: Making vgg-style convnets great again,” CVPR, 2021.

[9] C. Wang, A. Bochkovskiy, H. Liao, and et al., “Yolov7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors,” ICLR, 2022.

[10] H. Rezatofighi, N. Tsoi, J. Gwak, and et al., “Generalized intersection over union: A metric and a loss for bounding box regression,” CVPR, 2019.

相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 测试技术
社区供稿 | RWKV-6-World 14B正式开源发布,迄今最强的稠密纯RNN大语言模型
2024年7月19日,RWKV 开源基金会宣布正式向全球开源 RWKV-6-World 14B 模型。
|
4月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
82 7
|
5月前
|
数据采集 自然语言处理 测试技术
CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升
【8月更文挑战第24天】近期研究提出SELF-GUIDE,一种创新方法,旨在通过大型语言模型(LLMs)自动生成特定任务数据并用于自我微调,以克服其在特定任务上的性能局限。SELF-GUIDE分为三个阶段:数据合成、模型微调及性能评估。通过向目标LLM提供适当提示生成高质量合成数据,并用于微调以提升特定任务表现。实验证明,该方法在Natural Instructions V2等多个基准测试中显著提升了分类与生成任务性能。SELF-GUIDE不仅有效提高性能,还具备高数据效率,减少对外部数据依赖。然而,生成数据质量受限于LLM能力,且并非适用于所有任务。
79 4
|
5月前
|
机器学习/深度学习 算法 数据挖掘
技术视界|多模态说话人开源项目3D-Speaker
技术视界|多模态说话人开源项目3D-Speaker
|
6月前
|
人工智能 计算机视觉
首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次
【7月更文挑战第7天】Video-MME,首个多模态视频基准,由中国多所大学的研究团队推出,挑战了AI模型在视频理解上的能力。Gemini 1.5 Pro在评估中超越GPT-4o,平均准确率75.7%。此基准强调视频多样性、时间持续性、多模态输入和高质量标注,揭示了模型在动态场景中的潜力和局限性。**
134 1
|
5月前
|
数据采集 自然语言处理 机器学习/深度学习
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案
讯飞英文学术论文分类挑战赛中使用TextCNN和FastText模型进行文本分类的方案,包括数据预处理、模型训练和对抗训练等步骤,并分享了模型调优的经验。
47 0
|
5月前
|
数据采集 机器学习/深度学习 存储
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5 Bert 方案
在讯飞英文学术论文分类挑战赛中使用BERT模型进行文本分类的方法,包括数据预处理、模型微调技巧、长文本处理策略以及通过不同模型和数据增强技术提高准确率的过程。
47 0
|
人工智能 编解码 算法
【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读
传统视频目标检测(Video Object Detection, VOD)是离线(offline)的检测任务,即仅考虑算法的检测精度,未考虑算法的延时。流感知(Streaming Perception)任务作为VOD的一个细分方向,采用流平均精度(Streaming Average Precision, sAP)指标,衡量算法的在线(online)检测能力,即同时衡量算法的精度和延时。本文针对现有的流感知工作在训练方式和模型感受野两方面的不足,提出了DAMO-StreamNet,在保证算法实时性的前提下,实现了SOTA的性能。
989 4
【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读
|
机器学习/深度学习 人工智能 算法
WAVE SUMMIT 定档8月16日,或将曝百度飞桨、文心大模型最新进展
2023年全球AI浪潮迭起,大语言模型热度空前,生成式人工智能为千行百业高质量发展带来更多想象空间。作为前沿科技风向标、汇聚全球开发者的顶级盛会,WAVE SUMMIT 2023深度学习开发者峰会正式定档8月16日,在北京望京凯悦酒店召开。本次峰会聚焦深度学习及大模型技术的发展与未来,将带来行业前瞻洞察和一系列全新重磅发布。
132 0
WAVE SUMMIT 定档8月16日,或将曝百度飞桨、文心大模型最新进展
|
机器学习/深度学习 人工智能 自然语言处理
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
166 0

热门文章

最新文章