FasterX实时目标检测 | 依托NanoDet思想,使用辅助Head进一步提升YOLOX性能(二)

简介: FasterX实时目标检测 | 依托NanoDet思想,使用辅助Head进一步提升YOLOX性能(二)

3、实验


3.1 性能对比

image.png

image.png

3.2 消融实验

1、PixSF head and SlimFPN

image.png

首先探讨了4个Head结构对YOLOX的影响。以4个Head结构YOLOX-S为例,如表IV(第2行)所示,mAP和AP50分别显著提高了1.89%和4.59%,验证了4个Head结构的有效性。然而,添加一个检测Head使GFLOPs从26.8变化到60.14,Jetson Nano的延迟从52.52 ms变化到238.22 ms,Jetson NX的延迟从14.70 ms变化到27.26 ms。

为了缓解这种情况,在Head用DS Conv代替卷积算子是轻量级模型的可行设计。如表IV所示(FasterX-S部分,第1行和FasterX-很小的部分,第1行)所示,用DS Conv代替了一般的卷积,尽管mAP和AP50略有减少,但延迟显著降低。实验结果表明了DS Conv算子的有效性。

为了证明PixSF-Head方法的有效性能,比较了一般的卷积算子,DW Conv算子和PixSF算子。为了展示PixSF-Head的灵活嵌入性,还将DW Conv嵌入到PixSF-Head中,设计了一个更轻的Head。如表IV(FasterX-S部分,第2和第4行,FasterX-small部分,第2和第4行,FasterX-Nano部分,第1和第3行)可以看出,DW+PixSF方法在延迟和检测精度方面优于一般卷积算子和DW算子。以FasterXS为例,与使用DW操作符的4个Head结构相比,不仅mAP和AP50分别降低了0.62%和0.57%,而且Jetson Nano和NX的推理时间也分别降低了12.8%和9.8%以上。这些结果表明,所提出的PixSF-Head不仅能提高检测精度,而且还能提高推理速度。

将在特征聚合部分中说明精度和速度之间的权衡。如Tabel IV(FasterXS部分,第2行,FasterX-Small部分,第2行和FasterX-Nano部分,第1行)所示,以FasterX-S为例,与PANet(FasterX-S部分,第1行)相比,尽管SlimFPN方法的mAP和AP50分别下降了0.66%和1.23%,参数从7.61下降到4.96,GFLOPs从24.88下降到22.87。这些结果表明,SlimFPN不仅可以减少网络的大小,而且可以保持检测精度。这是因为自顶向下的结构可以确保深层语义信息被转移到浅层特征图中,从而为小目标提供语义支持。

为了进一步验证PixSF-head的通用性,在VOC2012数据集上进行了实验,实验目标的数量比无人机数据集更大。表V中的实验结果表明,DS Conv和PixSF-head的组合可以进一步实现模型容量和精度之间的权衡。

2、Attention mechanism

image.png

为了提高目标检测的头部层的解耦性能,采用CBAM来改进Head层的特征表示。如Tabel IV(FasterX-S部分,第5行,FasterX-很小的部分,第5行和FasterX-Nano部分,第4行)所示,可以看出CBAM对精度有积极的影响。因为它不仅监督通道,而且还通过使用空间概率图来提取兴趣区域。

3、Improved SimOTA

为了验证所提出的动态标签分配策略的有效性,将改进后的SimOTA与基本的标签分配机制进行了比较。如表四所示,用改进后的SimOTA替换了原来的SimOTA。实验结果表明,改进后的SimOTA在三种模型中都能取得良好的效果。以FasterX-S为例(FasterX-S部分,第6行),在没有额外的计算资源的情况下,mAP和AP50分别增加了0.42%和1.39%。

4、Auxiliary Head

此外,为了说明辅助Head在线蒸馏的效率,探讨了辅助Head对FasteX的效果。为了提高辅助Head的提取能力,采用了具有大量参数的YOLOX-X Head进行训练监督。在训练过程中,采用了网络预热策略。首先,对PixSF-Head和辅助Head进行联合训练50个Epoch。然后,使用辅助Head的标签结果来引导PixSF-Head。从表四可以看出,mAP和AP50在使用辅助Head进行在线蒸馏后有了显著的改善。

5、Backbone

在本文中,使用CSPDarknet53作为FasterX的主干。没有从理论上建模骨干和推理速度之间的关系,而是直接报告了Jetson设备下当前流行的轻量级骨干(如MobileNetV2、GhostNet和Effificientnet-Lite)的FPS和延迟。如表六所示,Effificientnet-Lite4的检测精度最好。同时,延迟在所有骨干中最高。CSPDarknet53骨干能够在不牺牲更多计算时间的情况下以更高的检测精度操作。因此,在CSPDarknet53主干中实现了检测精度和推理速度之间的平衡。


4、参考


[1].FasterX: Real-Time Object Detection Based on Edge GPUs for UAV Applications.


5、推荐阅读


量化部署篇 | Vision Transformer应该如何进行PTQ量化?这个方法或许可以参考!

3D检测无痛涨点 | 上下文感知数据增强方法上下文感知数据增强方法CA-Aug助力3D!

3D检测经典 | 第一个Anchor-Free、第一个NMS-Free 3D目标检测算法!!!

相关文章
|
5天前
|
机器学习/深度学习 编解码 文字识别
视频生成领域的发展概述:从多级扩散到LLM
2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。
76 0
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
神经网络优化:提高AI模型性能的策略
神经网络优化是确保人工智能模型性能达到最佳的关键步骤。通过选择合适的激活函数、优化器和正则化技术,可以提高神经网络模型的准确度和泛化能力。随着深度学习领域的不断发展,神经网络优化策略也将不断进化,为人工智能技术带来更多的突破和创新。
271 1
神经网络优化:提高AI模型性能的策略
|
自然语言处理 算法 数据挖掘
自蒸馏:一种简单高效的优化方式
背景知识蒸馏(knowledge distillation)指的是将预训练好的教师模型的知识通过蒸馏的方式迁移至学生模型,一般来说,教师模型会比学生模型网络容量更大,模型结构更复杂。对于学生而言,主要增益信息来自于更强的模型产出的带有更多可信信息的soft_label。例如下右图中,两个“2”对应的hard_label都是一样的,即0-9分类中,仅“2”类别对应概率为1.0,而soft_label
自蒸馏:一种简单高效的优化方式
|
5天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的策略与优化方法
在机器学习领域,构建一个既高效又准确的预测模型是每个数据科学家追求的目标。本文将探讨一系列策略和优化方法,用于提高机器学习模型的性能和效率。我们将从数据处理技巧、特征选择、算法调优以及模型评估等方面进行详细讨论。特别地,文章将重点介绍如何通过集成学习和自动化模型调优工具来提升模型的泛化能力。这些技术不仅能帮助减少过拟合的风险,还能确保模型在未知数据集上的表现更加鲁棒。
|
5天前
|
机器学习/深度学习 人工智能 算法
基于AidLux的工业视觉少样本缺陷检测实战应用---深度学习分割模型UNET的实践部署
  工业视觉在生产和制造中扮演着关键角色,而缺陷检测则是确保产品质量和生产效率的重要环节。工业视觉的前景与发展在于其在生产制造领域的关键作用,尤其是在少样本缺陷检测方面,借助AidLux技术和深度学习分割模型UNET的实践应用,深度学习分割模型UNET的实践部署变得至关重要。
72 1
|
10月前
|
机器学习/深度学习
结合亲和力提高了 28.7 倍,基于端到端贝叶斯语言模型的方法设计大型、多样化的高亲和力抗体库
结合亲和力提高了 28.7 倍,基于端到端贝叶斯语言模型的方法设计大型、多样化的高亲和力抗体库
|
12月前
|
机器学习/深度学习 编解码 监控
FasterX实时目标检测 | 依托NanoDet思想,使用辅助Head进一步提升YOLOX性能(一)
FasterX实时目标检测 | 依托NanoDet思想,使用辅助Head进一步提升YOLOX性能(一)
139 0
|
12月前
|
机器学习/深度学习 人工智能 算法
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(二)
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(二)
186 0
|
12月前
|
机器学习/深度学习 人工智能 算法
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(一)
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(一)
503 0
|
人工智能 自然语言处理 Shell
挖掘极致,将head数设置为特征数,Meta AI多头高效注意力模块更准、更快
挖掘极致,将head数设置为特征数,Meta AI多头高效注意力模块更准、更快