全新AFPN出现 | 完胜PAFPN,堪称YOLO系列的最佳搭档

简介: 全新AFPN出现 | 完胜PAFPN,堪称YOLO系列的最佳搭档

多尺度特征在目标检测任务中对具有尺度方差的目标进行编码时具有重要意义。多尺度特征提取的一种常见策略是采用经典的自上而下和自下而上的特征金字塔网络。然而,这些方法遭受特征信息的丢失或退化,削弱了非相邻 Level 的融合效果。

本文提出了一种渐近特征金字塔网络(AFPN)来支持非相邻层的直接交互。AFPN是通过融合两个相邻的Low-Level特征来启动的,并渐进地将High-Level特征纳入融合过程。通过这种方式,可以避免非相邻 Level 之间的较大语义差距。考虑到在每个空间位置的特征融合过程中可能出现多目标信息冲突,进一步利用自适应空间融合操作来缓解这些不一致。

本文将所提出的AFPN纳入两阶段和一阶段目标检测框架,并使用MS-COCO 2017验证和测试数据集进行评估。实验评估表明,与其他最先进的特征金字塔网络相比,作者的方法获得了更具竞争力的结果。

代码:https://github.com/gyyang23/AFPN

1、简介

目标检测是计算机视觉中的一个基本问题,旨在检测和定位图像或视频中的目标。随着深度学习的出现,目标检测发生了范式转变,基于深度学习的方法已成为主流方法。正在进行的研究导致了许多新方法的发展,表明了该领域进一Stride步的潜力。

基于深度学习的目标检测方法通常分为一阶段和两阶段。单阶段方法直接从输入图像中预测目标的类别和位置。另一方面,两种方法首先生成一组候选区域,然后对这些区域进行分类和位置回归。图像中目标大小的不确定性可能导致单尺度特征提取中详细信息的丢失。

因此,目标检测模型通常引入特征金字塔结构来解决尺度变化的问题。其中,FPN是最常用的特征金字塔结构。通过使用FPN,一级和两阶段检测器都可以获得改进的结果。在FPN的基础上,PAFPN为特征金字塔网络添加了一条自下而上的路径,弥补了FPN High-Level特征中Low-Level特征细节的不足。

对于目标检测任务,真正有用的特征必须包含关于目标的详细信息和语义信息,并且这些特征应该通过足够深入的神经网络提取。在现有的特征金字塔体系结构中,金字塔顶部的High-Level特征需要通过多个中间尺度传播,并在与底部的Low-Level特征融合之前与这些尺度的特征相互作用。在这个传播和交互过程中,来自High-Level特征的语义信息可能会丢失或退化。

同时,PAFPN的自下而上的途径带来了相反的问题:来自Low-Level特征的详细信息可能在传播和交互过程中丢失或退化。在最近的研究中,GraphFPN解决了仅相邻尺度特征之间直接交互的局限性,并为此引入了图神经网络。然而,额外的图神经网络结构显著增加了检测模型的参数和计算量。

现有的特征金字塔网络通常将由Backbone网络生成的High-Level特征上采样为Low-Level特征。然而,作者注意到,HRNet在整个特征提取过程中保持Low-Level别特征,并反复融合Low-Level别和High-Level别特征,以生成更丰富的Low-Level别特征。该方法在人体姿态估计领域显示出突出的优势。

受HRNet网络架构的启发,作者提出了一种渐进特征金字塔网络(AFPN)来解决上述限制。在Backbone中自下而上的特征提取过程中,作者在第一阶段通过组合两个具有不同分辨率的Low-Level特征来启动融合过程。随着作者进入后期阶段,作者逐渐将High-Level特征纳入融合过程,最终融合Backbone的顶级特征。这种融合方式可以避免非相邻层次之间存在较大的语义差距。

在此过程中,Low-Level特征与来自High-Level特征的语义信息融合,High-Level特征与来自Low-Level特征的详细信息融合。由于它们的直接相互作用,避免了多级传输中的信息丢失或退化。在整个特征融合过程中,元素求和并不是一种有效的方法,因为层次之间的某个位置可能存在不同目标的矛盾。

为了解决这个问题,作者利用自适应空间融合操作来过滤多级融合过程中的特征。这使作者能够为融合保留有用的信息。

为了评估作者的方法的性能,作者在MS COCO 2017数据集上使用了Faster R-CNN框架。具体而言,作者使用ResNet-50和ResNet-101作为Backbone,与基于FPN的Faster R-CNN相比,这两个Backbone分别提高了1.6%和2.6%。作者将其与其他特征金字塔网络进行比较。

实验结果表明,所提出的AFPN不仅比其他最先进的特征金字塔网络取得了更具竞争力的结果,而且具有最低的每秒浮点运算(FLOP)。此外,作者将AFPN扩展到单阶段检测器。作者在YOLOv5框架上实现了作者提出的方法,并用更少的参数获得了优于Baseline的性能。

作者的主要贡献如下:

  1. 作者引入了一种渐进特征金字塔网络(AFPN),它有助于跨非相邻 Level 的直接特征融合,从而防止特征信息在传输和交互过程中的丢失或退化。
  2. 为了抑制不同层次特征之间的信息矛盾,作者在多层次特征融合过程中引入了自适应空间融合操作。
  3. 在MS COCO 2017验证和测试数据集上的大量实验表明,与其他特征金字塔网络相比,作者的方法表现出优越的计算效率,同时获得了更具竞争力的结果。

2、相关方法

传统的计算机视觉方法通常只从图像中提取一个尺度特征进行分析和处理。这将导致对不同大小的目标或不同尺度的场景的检测性能较差。研究人员已经构建了包含各种尺度特征的特征金字塔,克服了使用单尺度特征的局限性。此外,许多研究提出了特征融合模块,旨在增强或细化特征金字塔网络,进一步提高检测器的性能。

2.1、特征金字塔

FPN使用自上而下的方式将High-Level特征转移到Low-Level特征,以实现不同 Level 特征的融合。但是,在这个过程中,High-Level特性不会与Low-Level特性融合。为此,PAFPN在FPN的基础上增加了自下而上的路径,使High-Level特征在Low-Level特征中获得细节。与固定网络架构方法不同,NASFPN使用神经架构搜索算法自动搜索最优连接结构。最近,其他领域的想法也被引入到特征金字塔架构中。

例如,FPT在NLP领域引入了自注意力机制来提取不同层次的特征,并使用多尺度注意力网络来聚合这些特征。GraphFPN使用图神经网络在特征金字塔上交互和传播信息。虽然GraphFPN也促进了非相邻 Level 之间的直接交互,但它对图神经网络的依赖大大增加了参数量和计算复杂性,而FPT也面临着类似的问题。相反,AFPN只引入了正常的卷积分量。因此,作者的AFPN在实际应用中更加可行和实用。

2.2、特征融合模块

特征融合模块通常被合并到预先存在的、固定拓扑的特征金字塔中,以增强其特征。还进行了几项研究来增强特征金字塔的上采样模块。在本文中,不改变特征金字塔拓扑的模块被称为特征融合模块。CARAFE是一种通用、轻量级和高效的上采样算子,可以聚合大的感受野信息。ASFF为不同 Level 的特征添加权重,以便有效地融合它们,考虑到不同 Level 特征之间可能存在的矛盾信息。DRFPN通过合并空间细化块(SRB)和通道细化块(CRB)来扩展PAFPN体系结构。SRB模块利用跨相邻 Level 的上下文信息来学习上采样点的位置和内容,而CRB模块利用注意力机制来学习自适应通道合并策略。

与这些特征金字塔架构相比,特征金字塔模块可以无缝集成到广泛的现有特征金字塔架构中,为解决特征金字塔的各种局限性提供了实用的解决方案。特征金字塔的一个限制是在特征融合过程中来自同一位置的不同目标的信息共存。这种限制在AFPN中尤其明显,因为它需要更多轮的特征融合。此外,作者进行了自适应空间融合,以有效地融合不同层次的特征。

3、本文方法

3.1、提取多层次特征

与许多基于特征金字塔网络的目标检测方法一样,在特征融合之前,从Backbone中提取不同 Level 的特征。作者遵循Faster R-CNN框架的设计,该框架从Backbone的每个特征层提取最后一层特征,从而产生一组不同尺度的特征,表示为。为了执行特征融合,首先将Low-Level特征和输入到特征金字塔网络中,然后添加,最后添加。

在特征融合步骤之后,产生一组多尺度特征。对于在Faster R-CNN框架上进行的实验,作者将Stride为2的卷积应用于,然后再应用Stride为1的卷积来生成,这确保了统一的输出。最后一组多尺度特征是,对应的特征Stride为个像素。应该注意的是,YOLO仅将输入到特征金字塔网络中,该特征金字塔网络生成的输出。

3.2、渐近结构

所提出的AFPN的架构如图所示2。在Backbone网络自下而上的特征提取过程中,AFPN渐进地集成了Low-Level、High-Level和顶级特征。

具体来说,AFPN最初融合了Low-Level特征,然后融合了深层特征,最后融合了最High-Level的特征,即最抽象的特征。非相邻层次特征之间的语义差距大于相邻层次特征间的语义差距,尤其是底部和顶部特征。这直接导致了非相邻层次特征的融合效果较差。

因此,直接使用、、和进行特征融合是不合理的。由于AFPN的架构是渐进的,这将使不同 Level 特征的语义信息在渐进融合过程中更加接近,从而缓解上述问题。例如,和之间的特征融合减少了它们的语义差距。由于和是相邻的层次特征,因此减少了和之间的语义差距。

为了对齐维度并为特征融合做准备,作者使用1×1卷积和双线性插值方法对特征进行上采样。另一方面,作者根据所需的下采样率使用不同的卷积核和Stride来执行下采样。

例如,作者应用Stride为2的2×2卷积来实现2次下采样,应用Stride为4的4×4卷积来实现4次下采样以及应用Stride为8的8×8卷积来实现8倍下采样。在特征融合之后,作者使用4个残差单元继续学习特征,这些残差单元类似于ResNet。每个残差单元包括2个3×3卷积。由于YOLO中只使用了3个 Level 的特征,因此没有8次上采样和8次下采样。

3.3、自适应空间融合

在多级特征融合过程中,作者利用ASFF为不同 Level 的特征分配不同的空间权重,增强了关键 Level 的重要性,并减轻了来自不同目标的矛盾信息的影响。

如图3所示,作者融合了3个层次的特征。让表示从 Level 到 Level 的位置处的特征向量。结果特征向量,表示为,通过多级特征的自适应空间融合获得,并由特征向量的线性组合,和如下:

其中,αβγ表示3个 Level 的特征在 Level 的空间权重,受αβγ的约束。考虑到AFPN每个阶段融合特征数量的差异,作者实现了特定阶段数量的自适应空间融合模块。

4、实验

4.1、与不同特征金字塔网络的比较

4.2、不同检测器的结果

1、单阶段检测器

2、两阶段检测器

4.3、消融实验

5、参考

[1].AFPN: Asymptotic Feature Pyramid Network for Object Detection.

相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
【7月更文挑战第21天】历经五年研发,斯坦福、UCSD等顶尖学府联合推出TTT架构,革新NLP领域。此架构以线性复杂度处理长序列,增强表达力及泛化能力,自监督学习下,测试阶段动态调整隐藏状态,显著提升效率与准确性。实验显示,TTT在语言模型与长序列任务中超越Transformer,论文详述于此:[https://arxiv.org/abs/2407.04620](https://arxiv.org/abs/2407.04620)。尽管如此,TTT仍需克服内存与计算效率挑战。
160 2
|
15天前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
37 6
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
清华微软最新力作:用物理学革新Transformer注意力,大海捞针精度暴涨30%!
【10月更文挑战第30天】Transformer模型在自然语言处理(NLP)中表现出色,但在处理长文本和复杂任务时存在注意力分配不当的问题。清华大学和微软研究院提出了Diff Transformer,通过计算两个独立软最大注意力图之间的差异,有效消除噪声,提高模型性能。Diff Transformer在语言建模、减少幻觉、增强上下文学习能力和减少激活异常值等方面表现出显著优势,但也存在计算复杂度增加、对超参数敏感和适用范围有限的局限性。论文地址:https://arxiv.org/abs/2410.05258
22 2
|
1月前
|
机器学习/深度学习 自然语言处理
【绝技揭秘】模型微调与RAG神技合璧——看深度学习高手如何玩转数据,缔造预测传奇!
【10月更文挑战第5天】随着深度学习的发展,预训练模型因泛化能力和高效训练而备受关注。直接应用预训练模型常难达最佳效果,需进行微调以适应特定任务。本文介绍模型微调方法,并通过Hugging Face的Transformers库演示BERT微调过程。同时,文章探讨了检索增强生成(RAG)技术,该技术结合检索和生成模型,在开放域问答中表现出色。通过实际案例展示了RAG的工作原理及优势,提供了微调和RAG应用的深入理解。
50 0
|
3月前
|
数据采集 自然语言处理 测试技术
CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升
【8月更文挑战第24天】近期研究提出SELF-GUIDE,一种创新方法,旨在通过大型语言模型(LLMs)自动生成特定任务数据并用于自我微调,以克服其在特定任务上的性能局限。SELF-GUIDE分为三个阶段:数据合成、模型微调及性能评估。通过向目标LLM提供适当提示生成高质量合成数据,并用于微调以提升特定任务表现。实验证明,该方法在Natural Instructions V2等多个基准测试中显著提升了分类与生成任务性能。SELF-GUIDE不仅有效提高性能,还具备高数据效率,减少对外部数据依赖。然而,生成数据质量受限于LLM能力,且并非适用于所有任务。
63 4
|
6月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
165 5
|
6月前
|
机器学习/深度学习 编解码 算法
中科大提出PE-YOLO | 让YOLO家族算法直击黑夜目标检测
中科大提出PE-YOLO | 让YOLO家族算法直击黑夜目标检测
164 0
|
6月前
|
机器学习/深度学习 固态存储 算法
目标检测的福音 | 如果特征融合还用FPN/PAFPN?YOLOX+GFPN融合直接起飞,再涨2个点
目标检测的福音 | 如果特征融合还用FPN/PAFPN?YOLOX+GFPN融合直接起飞,再涨2个点
296 0
|
机器学习/深度学习 存储 人工智能
MIT新材料打造「人造突触2.0」,模拟深度学习训练提速100万倍!
MIT新材料打造「人造突触2.0」,模拟深度学习训练提速100万倍!
128 0
|
机器学习/深度学习 量子技术 计算机视觉
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
200 0