【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
简介: 传统视频目标检测(Video Object Detection, VOD)是离线(offline)的检测任务,即仅考虑算法的检测精度,未考虑算法的延时。流感知(Streaming Perception)任务作为VOD的一个细分方向,采用流平均精度(Streaming Average Precision, sAP)指标,衡量算法的在线(online)检测能力,即同时衡量算法的精度和延时。本文针对现有的流感知工作在训练方式和模型感受野两方面的不足,提出了DAMO-StreamNet,在保证算法实时性的前提下,实现了SOTA的性能。

论文&代码

背景介绍

传统视频目标检测(Video Object Detection, VOD)任务以一段视频作为输入,利用视频的时序信息进行目标检测,并最终输出每一帧视频帧的检测结果。其相比图像目标检测(Image Object Detection, IOD)任务,优势在于能够利用视频的时序信息,对运动模糊、图像失焦、遮挡、物体姿态变化等困难的场景具有更强的鲁棒性。然而,传统的VOD和IOD都是离线(offline)的检测,即仅考虑算法的检测精度,未考虑算法的延时

为了更加贴近现实场景,ECCV 2020 论文《Towards Streaming Perception》[1](获得Best Paper Honorable Mention)首次提出了流感知Streaming Perception)任务,该任务作为VOD的一个细分方向,提出了流平均精度(Streaming Average Precision, sAP)指标,衡量算法的在线(online)检测能力,即同时衡量算法的精度延时。具体地,如下图所示,离线目标检测算法对$T$时刻的视频帧进行检测,得到轿车检测结果,即橙色的矩形框,而因为算法处理存在一定的延时,此时现实环境已经处于 T+ Latency 时刻,轿车的实际位置也已经发生变化,即红色的矩形框。由此可见,实际应用中,算法进行目标检测时,应同时考虑环境变化,这正是在线检测(如Streaming Perception任务)考虑的事情,这一类的算法在$T$时刻的检测结果,橙色的矩形框,与 T+Latency 时刻的实际环境,红色的矩形框,能有较好的吻合。

图1 离线检测与在线检测对比
图1 离线检测与在线检测对比

技术难点

早期的方法如Streamer[1]和Adaptive Streamer[2]尝试通过提出一些策略,来进行精度和延时之间的平衡,但是这些方法精度较低。CVPR 2022 oral工作StreamYOLO[3]通过引入强大的实时目标检测器YOLOX[4],将Streaming Perception任务简化为一个预测任务。

为了更好地理解为什么引入实时目标检测器能够简化Streaming Perception任务,需要先介绍一下此任务的评价指标。流平均精度(Streaming Average Precision, sAP)可以分为两个部分理解,其中"Average Precision"和通用检测一致,而"Streaming"表示,某个时刻的预测结果,会与算法处理完成后下一时刻的真实值(Ground True, GT)匹配,并计算对应的"Average Precision"。具体地,如下图所示,对于非实时的算法,$I_{t}$时刻的预测结果在下一时刻$I_{t+1}$到来之后才能得到,如下图左半部分绿色箭头所示,因此与该预测结果配对的是$I_{t+2}$时刻的GT,而$I_{t+1}$时刻的GT,会默认使用前一次预测结果进行配对,这样一来,算法一方面“错过”了$I_{t+1}$时刻的GT,另一方面需要预测更“远”的$I_{t+2}$时刻的真实环境,因此对算法的挑战更大。相对地,对于实时的算法,$I_{t}$时刻的预测结果在下一时刻$I_{t+1}$到来之前可以得到,如下图右半部分绿色箭头所示,因此与该预测结果配对的是$I_{t+1}$时刻的GT,该情况下,算法一方面不会“错过”任何时刻的GT,另一方面仅需要预测下一时刻的真实环境。因此说,引入实时算法能够简化Streaming Perception任务为一个对下一帧真实环境的预测任务

图2 非实时方法和实时方法的评估示意图
图2 非实时方法和实时方法的评估示意图

虽然StreamYOLO简化了Streaming Perception任务,但是它仅使用当前帧和前一帧两帧的短时序信息作为输入,难以表征一些复杂的运动状态。在实际自动驾驶环境中,经常会出现以下的,除了匀速直线运动以外的运动状态以及情况:1)非匀速运动(比如加速超车);2)非直线运动(比如转弯);3)遮挡以及小目标。

因此,我们在之前的工作中提出了LongShortNet[5],将长时序信息引入到Streaming Perception任务中,并提出了长短时序融合模块,在一些困难场景下,能够达到比StreamYOLO更高的精度。

在LongShortNet中,存在一个遗留的问题:我们发现当使用大尺寸输入(1200x1920)的时候,模型对大物体的检测精度sAPl反而有所下降,我们推测是因为网络的感受也不足造成大物体的检测精度下降,如下图3所示。
因此,在本文中,我们提出了DAMO-StreamNet,一方面,探索如何通过增加网络的感受野来提升模型对大物体的检测精度,进而提升最终的整体精度;另一方面,我们也探索了如何引入更多的监督信息,来进一步提升模型的精度。

图3 感受野不足示意图
图3 感受野不足示意图

方法介绍

DAMO-StreamNet的整体结构如下图所示:

图4 DAMO-StreamNet示意图
图4 DAMO-StreamNet示意图

主要的贡献点如下:

  1. 我们提出动态感受野FPN (Dynamic Receptive Field FPN, DRFPN),使网络具备可变的感受野,从而提升在大分辨率下对大物体的检测性能;
  2. 我们提出了一种非对称的蒸馏方案 (Asymmetric Knowledge Distillation, AK-Distillation),在训练阶段利用教师网络对“未来信息”的知识,进一步提升学生网络的精度;
  3. 我们还提出了一种新的评估方式 (K-step sAP),评估模型对于更长时序的预测能力。
  • 此外,我们仍然采用和LongShortNet一致的双支路结构,且仍然保持模型的实时性前提。

Dynamic Receptive Field FPN (DRFPN)

DRFPN最主要的贡献在于:使网络具备可变(可学习)的感受野,其结构如下图所示:

图5 PAFPN和DRFPN示意图
图5 PAFPN和DRFPN示意图

我们知道PAFPN[6]是检测网络中基础的neck结构,它采用了top-down和bottom-up结合的形式,另外,GFPN[7]验证了neck结构对于检测网络的重要性,因此,我们在PAFPN的基础上进行了如下几点改进,以适应我们的需求:

  1. 我们提出了DR模块,替换PAFPN原来的CSP模块,主要的改进点有:1)引入可变形卷积,使网络具备可学习的感受野;2)使用重参数化卷积[8],使网络具备更强的表征能力;3)引入了ELAN[9]结构,增强特征融合。
  2. 另外,我们增加了bottom-up的辅助连接支路,进一步利用低层特征的细节信息对高层特征进行补充。

Asymmetric Knowledge Distillation (AK-Distillation)

AK-Distillation最主要的贡献点在于:利用教师网络对“未来信息”的学习,来指导学生网络的学习,最终提升其预测的能力

具体地,有视频序列$$\mathcal{S}=\{I_{t},\dots I_{t-N\delta t}\}$$ 其中$N_{}$和$\delta t_{}$ 分别表示输入历史视频帧的数量以及历史视频帧的间隔步长(其含义和LongShortNet一致),那么DAMO-StreamNet可以用下面的公式表示:
$$ \mathcal{T}=\mathcal{F}(\mathcal{S}, W) $$
其中,$W$表示网络的权重而$\mathcal{T}$表示网络最终输出的特征图,可以通过解码操作$Decode(\mathcal{T})$来得到网络最终的预测结果$\mathcal{R}$(包括目标物体的位置、类别和置信度)。在训练阶段,学生网络可以用下面的公式表示:
$$ \mathcal{T}_{stu}=\mathcal{F}_{stu}(\mathcal{S}, W_{stu}) $$
另外,教师网络可以用下面的公式表示:
$$ \mathcal{T}_{tea}=\mathcal{F}_{tea}(I_{t+1}, W_{tea}) $$
$W_{stu}$和$W_{tea}$分别表示学生网络和教师网络的权重参数。可以看到,学生网络以$\mathcal{S}$作为输入,而教师网络以$I_{t+1}$作为输入,这就是“非对称”(Asymmetric)的核心思想,即教师网络是一个以未来帧作为输入的静态预测网络(所谓的静态预测网络就是以当前帧作为输入,预测当前帧的结果),教师网络和学生网络的输入是不一致的(以往大部分的蒸馏工作教师网络和学生网络的输入都是一致的仅网络结构上有差别),最终教师网络将对未来帧预测的能力“传授”给学生网络
我们利用教师网络和学生网络输出的特征图进行蒸馏,如下所示:
$$ \text{AKDM}(\mathcal{T}_{stu}, \mathcal{T}_{tea})=\mathcal{L}_{cls}(F_{stu}^{cls}, F_{tea}^{cls}) + \mathcal{L}_{obj} (F_{stu}^{obj}, F_{tea}^{obj}) + \mathcal{L}_{reg}(\hat{F}_{stu}^{reg}, \hat{F}_{tea}^{reg}) $$
其中,$$\mathcal{T}_{stu}=\{F_{stu}^{cls}, F_{stu}^{reg}, F_{stu}^{obj}\}$$,$$\mathcal{T}_{tea}=\{F_{tea}^{cls}, F_{tea}^{reg}, F_{tea}^{obj}\}$$
$\mathcal{L}_{cls}(\cdot)$ 和 $\mathcal{L}_{obj}(\cdot)$ 为均方误差 (Mean Square Error, MSE),$\mathcal{L}_{reg}(\cdot)$ 为GIoU损失[10]。需要注意的是,$\hat{F}_{stu}^{reg}$和$\hat{F}_{tea}^{reg}$表示正样本的特征,即我们仅针对正样本进行位置特征的蒸馏,避免负样本带来的噪声干扰。

K-step Streaming Metric

K-step sAP的核心思想在于:衡量网络对更长的时序的预测能力(之前的StreamYOLO和LongShortNet都只是针对下一帧进行预测)。

图6 不同的K取值下K-step匹配示意图
图6 不同的K取值下K-step匹配示意图

其中,(a)和(b)是对原始的sAP的展示(对应non-real-time和real-time),此时相当于K=1,而(c)展示的是K=2的情况,依此类推,(d)表示K去更大的值的时候,K-step sAP将衡量模型对更长时序的预测能力。

实验结果

本文基于Streaming Perception任务的公开数据集,Argoverse-HD[1],进行算法实验,并与StreamYOLO&LongShortNet等工作保持相同的训练/验证集划分。同样使用small/middle/large三种尺寸的网络,分别对应DAMO-StreamNet-S/DAMO-StreamNet-M/DAMO-StreamNet-L。

SOTA对比

首先,与目前SOTA方法的对比如下表所示,DAMO-StreamNet在常规分辨率((600, 960))下,取得了37.8%的sAP,而在高分辨率((1200, 1920))下,取得了43.3%的sAP,均超过了目前的SOTA精度。且值得注意的是,DAMO-StreamNet在高分辨率的情况下,sAPl指标有了明显提升,这也证明了DRFPN引入可变感受野的作用。

表1 与SOTA对比
表1 与SOTA对比

消融实验

首先,我们对DRFPN进行了消融实验,我们在StreamYOLO和LongShortNet的基础上,加上了DRFPN,如下表所示,可以看到,对于不同量级的网络,DRFPN都能带来精度的提升。

表2 DRFPN消融实验
表2 DRFPN消融实验

我们对$N$和$\delta t$的取值进行了消融实验,结果如下表所示,相关的观察和LongShortNet类似。其中,(1, 1)等价于StreamYOLO,由此可见,引入长时序信息有助于算法对复杂运动的预测,从而提升最终的精度。

表3 N和delta t消融实验
表3 N和delta t消融实验

我们同时对AK-Distillation进行了消融实验,在大部分情况下,AK-Distillation可以为学生网络带来进一步的精度提升。

表4 AK-Distillation消融实验
表4 AK-Distillation消融实验

我们还对K-step进行了实验,可以看到,输入更长时序(N=2/3)的情况下,在各个step下均能有更优的表现,但是我们发现,N=1和N=2/3的精度差距,并没有随着K的增加而增大,说明对于更长时序的预测是很有挑战的,值得更多的探索。

表5 K-step sAP实验
表5 K-step sAP实验

最后,我们对模型的推理时效也做了分析,虽然相比LongShortNet速度有所下降,但模型仍然保持了实时性的前提。

表6 模型推理速度分析
表6 模型推理速度分析

模型传送门

流感知模型:

检测相关模型:

关键点相关模型:

更多模型详见 ModelScope 主页。

检测套件开发工具

ModelScope社区视觉检测开发套件AdaDet

参考文献

  • [1] M. Li and D. Ramanan, “Towards streaming perception,” in ECCV, 2020, vol. 12347, pp. 473–488.

  • [2] A. Ghosh, A. Nambi, A. Singh, and et al., “Adaptive streaming perception using deep reinforcement learning,” CoRR, vol. abs/2106.05665, 2021.

  • [3] J. Yang, S. Liu, Z. Li, and et al., “Real-time object detection for streaming perception,” in CVPR, 2022, pp. 5385–5395.

  • [4] Z. Ge, S. Liu, F. Wang, and et al., “YOLOX: exceeding YOLO series in 2021,” CoRR, vol. abs/2107.08430, 2021.

  • [5] C. Li, Z. Cheng, J. He, and et al., “Longshortnet: Exploring temporal and semantic features fusion in streaming perception,” ICASSP, 2023.

  • [6] S. Liu, L. Qi, H. Qin, and et al., “Path aggregation network for instance segmentation,” CVPR, 2018.

  • [7] Y. Jiang, Z. Tan, J. Wang, and et al., “GiraffeDet: A heavy-neck paradigm for object detection,” ICLR, 2022.

  • [8] X. Ding, X. Zhang, N. Ma, and et al., “Repvgg: Making vgg-style convnets great again,” CVPR, 2021.

  • [9] C. Wang, A. Bochkovskiy, H. Liao, and et al., “Yolov7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors,” ICLR, 2022.

  • [10] H. Rezatofighi, N. Tsoi, J. Gwak, and et al., “Generalized intersection over union: A metric and a loss for bounding box regression,” CVPR, 2019.

相关文章
|
机器学习/深度学习 人工智能 编译器
YOLO-NAS:面向目标检测的下一代模型
YOLO-NAS:面向目标检测的下一代模型
|
4月前
|
存储 人工智能 运维
防御OSS Bucket泄露:RAM权限策略+日志审计+敏感数据扫描三重防护
云存储安全三重防护体系,聚焦RAM权限控制、日志审计与敏感数据扫描,通过策略精控、异常检测与主动扫描构建闭环防御,有效应对配置错误导致的数据泄露风险,提升企业云上数据安全性。
326 0
|
AI芯片
AIGC视频生成/编辑技术调研报告
随着图像生成领域的研究飞速发展,基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天,视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状,包括不同技术路线的优劣势,以及该领域当下面临的核心问题与挑战。
1845 2
AIGC视频生成/编辑技术调研报告
|
8月前
|
机器学习/深度学习 人工智能 并行计算
BEN2:一键快速抠图!自动移除图像和视频中的背景,支持在线使用
BEN2 是由 Prama LLC 开发的深度学习模型,专注于从图像和视频中快速移除背景并提取前景,支持高分辨率处理和GPU加速。
540 10
BEN2:一键快速抠图!自动移除图像和视频中的背景,支持在线使用
|
7月前
|
负载均衡 算法 应用服务中间件
Nginx长连接负载均衡详细说明以及案例
本文详细介绍了Nginx长连接负载均衡的配置与原理。长连接(Keepalive)允许客户端和服务器保持连接,减少建立和关闭连接的开销。Nginx支持多种负载均衡算法,如轮询、IP哈希等。通过在Nginx配置文件中使用`upstream`模块和`keepalive`指令,可以实现长连接负载均衡,从而提高系统的性能和响应速度。示例配置展示了如何设置后端服务器组、长连接数及HTTP/1.1协议,确保连接复用,降低延迟。
441 5
|
10月前
|
机器学习/深度学习 存储
线性化注意力综述:突破Softmax二次复杂度瓶颈的高效计算方案
大型语言模型虽在各领域表现出色,但其核心的softmax注意力机制存在显著的计算资源消耗问题。本文探讨通过线性时间复杂度的替代方案突破这一瓶颈,介绍线性注意力机制、门控线性注意力及状态空间模型(SSM)等创新方法,旨在优化计算效率与内存容量之间的权衡,提升模型性能。
425 9
线性化注意力综述:突破Softmax二次复杂度瓶颈的高效计算方案
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT最强专业学习资料集锦
本文旨在整理一份可供参考和学习的专业ChatGPT相关资料,包括ChatGPT相关论文、Github项目、以及当前市场上出现的ChatGPT相关产品等。
ChatGPT最强专业学习资料集锦
|
10月前
|
人工智能 自然语言处理 Swift
ModernBERT-base:终于等到了 BERT 回归
BERT于 2018 年发布(史前人工智能!),但它至今仍被广泛使用,BERT的纯编码器架构使其成为每天出现的各种场景的理想选择,例如检索、分类和实体提取。
971 3
|
12月前
|
机器学习/深度学习 人工智能 文字识别
ultralytics YOLO11 全新发布!(原理介绍+代码详见+结构框图)
本文详细介绍YOLO11,包括其全新特性、代码实现及结构框图,并提供如何使用NEU-DET数据集进行训练的指南。YOLO11在前代基础上引入了新功能和改进,如C3k2、C2PSA模块和更轻量级的分类检测头,显著提升了模型的性能和灵活性。文中还对比了YOLO11与YOLOv8的区别,并展示了训练过程和结果的可视化
18352 0
|
搜索推荐 安全 Windows
Windows10系统 无法更换锁屏图片一直转圈圈(含替换系统默认锁屏壁纸教程)异常处理
Windows10系统 无法更换锁屏图片一直转圈圈(含替换系统默认锁屏壁纸教程)异常处理
2175 0
Windows10系统 无法更换锁屏图片一直转圈圈(含替换系统默认锁屏壁纸教程)异常处理

热门文章

最新文章