【论文精读】CVPR2021 - ReDet:一种用于航空目标检测的旋转等变检测器

简介: 【论文精读】CVPR2021 - ReDet:一种用于航空目标检测的旋转等变检测器

【论文原文】:R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

获取地址:https://openaccess.thecvf.com/content/CVPR2021/papers/Han_ReDet_A_Rotation-Equivariant_Detector_for_Aerial_Object_Detection_CVPR_2021_paper.pdf

博主关键词: 旋转检测,旋转等变特征,旋转不变特征

推荐相关论文:

-无
  1. 工作:提出旋转等变网络和旋转不变ROI对齐,分别提取旋转等变特征和旋转不变特征,首次将旋转等变性系统引入目标检测。
  2. 论点:
    a. 平移等变性:将图片平移后再送入若干卷积层得到的结果,与将原图直接送入相同卷积层得到结果后再对特征图进行平移所得到的结果一样。也就是说,对原图进行平移,和对原图的特征图进行平移,得到的输出是一样的。旋转不变性等同。
    b. 平移不变性:将图片平移后再送入若干卷积层得到的结果,与将原图直接送入相同卷积层得到的结果相同。旋转不变性等同。
    c. CNN对平移具有等变性,对旋转不具有等变性。
  3. 旋转等变网络主要实现特征的旋转等变性,以g-cnn为基础卷积,第一层,输出一个群,其实就是通道数为N(代表N个方向)的特征图,所不同的是,输出N个通道的filter之间是有联系的,其联系就是其是定义的群,也就是所有的滤波器都是由上一个滤波器旋转2Π/N个角度得到(旋转矩阵与滤波器权重矩阵相乘,因为旋转成为一个独立矩阵,因此得到的特征图之间也可以通过旋转矩阵相互转换),这样图像如果旋转,相当于滤波器组得到的特征图旋转一下,且得到的特征图具有各个方向上的信息。


Abstract:


最近,航空图像中的目标检测在计算机视觉中引起了广泛的关注。与自然图像中的物体不同,空中物体通常以任意方向分布。因此,检测器需要更多的参数来编码方向信息,这通常是高度冗余和低效的。此外,由于普通CNN没有明确地对方向变化进行建模,因此需要大量的旋转增强数据来训练准确的目标检测器。在本文中,我们提出了一种旋转等变检测器(ReDet)来解决这些问题,它明确编码了旋转等变性和旋转不变性。更准确地说,我们将旋转等变网络纳入检测器以提取旋转等变特征,这可以准确预测方向并导致模型尺寸的大幅减小。基于旋转等变特征,我们还提出了旋转不变RoI对齐(RiRoI Align),它根据RoI的方向自适应地从等变特征中提取旋转不变特征。在几个具有挑战性的航空图像数据集DOTA-v1.0,DOTA-v1.5和HRSC2016上的大量实验表明,我们的方法可以在航空目标检测任务中实现最先进的性能。与之前的最佳结果相比,我们的 ReDet 在 DOTA-v1.0、DOTA-v1.5 和 HRSC2016 上分别获得了 1.2、3.5 和 2.6 mAP,同时将参数数量减少了 60%(313 Mb vs. 121 Mb)。该代码可在以下位置获得:https://github.com/csuhan/ReDet


1. Introduction


本文研究了航空图像中的目标检测问题,这是计算机视觉中最近出现的一个具有挑战性的问题[35]。与自然图像中的对象不同,航拍图像中的对象通常以任意方向分布。为了应对这些挑战,航空目标检测通常通过依靠定向边界框(OBB)表示代替水平边界框(HBB)来制定定向目标检测任务[7],[35],[38],[40]。

最近,许多精心设计的定向目标检测器被提出,并报告了具有挑战性的航空图像数据集的有希望的结果[21],[35]。为了在无约束的航拍图像中实现准确的目标检测,它们中的大多数都致力于提取旋转不变特征[7],[10],[22],[37]。

在实践中,RRoI warping(例如,RRoI 池化 [22] 和 RRoI 对齐 [7])是提取旋转不变特征最常用的方法,它可以根据二维平面中 RRoI 的边界框精确地扭曲区域特征。然而,具有常规CNN特征的RRoI warping不能产生精确的旋转不变特征。通过使用更大的容量网络和更多的训练样本来模拟旋转变化,可以近似旋转不变性。如图1所示,规则的cnn与旋转不是等变的,即将旋转后的图像输入cnn与原始图像的旋转特征图不相同。因此,随着方向的变化,由规则的CNN特征图扭曲的区域特征通常是不稳定和微妙的。

640.png

Figure. 1. Illustration of our method (top) and comparisons of RRoI warping (bottom).

最近提出的一些方法[5],[13],[33]将CNN扩展到更大的group并通过group convolutions实现旋转等变性 [5]。这些方法的特征图具有额外的方向通道,记录来自不同方向的特征。然而,直接将普通RRoI warping应用于旋转等变特征无法产生旋转不变特征,因为它只能在2D平面(即空间维度)中扭曲区域特征,而方向通道仍然未对齐。为了提取完全旋转不变的特征,我们还需要根据 RRoI 的方向调整特征图的方向维度。

在本文中,我们提出了一种旋转等变检测器(ReDet)来从旋转等变特征中提取完全旋转不变的特征。如图1所示,我们的方法由两部分组成:旋转等变特征提取和旋转不变特征提取。首先,我们将旋转等变网络纳入骨干中,产生旋转等变特征,可以准确预测方向并降低建模方向变化的复杂性;由于直接应用RRoI warping仍然不能从旋转等变特征中提取旋转不变特征,我们提出了一种新的旋转不变RoI对齐(RiRoI Align)。它可以根据空间维度上RRoI的边界框扭曲区域特征,并通过循环切换方向通道和特征插值来对齐方向维度上的特征。最后,旋转等变backbone和RiRoI Align的组合形成了我们的ReDet,以提取完全旋转不变的特征,进行准确的航空目标检测。

在具有挑战性的航空图像数据集DOTA [35]和HRSC2016 [21]上进行的大量实验证明了我们方法的有效性。我们将我们的贡献总结为:

  • 我们提出了一种用于高质量航空物体检测的旋转等变检测器,它对旋转等变性和旋转不变性进行编码。据我们所知,这是第一次将旋转等变性系统地引入定向目标检测。
  • 我们设计了一种新型的RiRoI Align,从旋转等变特征中提取旋转不变特征。与其他RRoI warping方法不同,RiRoI Align在空间和方向维度上产生完全不变的旋转特征。
  • 我们的方法分别在DOTA-v1.0、DOTA-v1.5和HRSC2016上达到了最先进的80.1、76.8和90.46 mAP。

与之前的最佳结果相比,我们的方法获得了1.2、3.5和2.6 mAP的改进。与baseline相比,我们的方法显示出一致和实质性的改进,并将参数数量减少了60%(313 Mb vs. 121 Mb)。此外,我们的方法实现了更好的模型大小与精度权衡(如图2所示)。

640.png

Figure. 2. Model size vs. accuracy (mAP) on DOTA-v1.5.

2. Related Works

2.1. Oriented Object Detection

与大多数使用HBBs的一般目标检测器[8,9,18,20,26,27,44]不同,定向目标检测器使用OBBs对目标进行定位和分类,这提供了更准确的目标方向信息。这对于具有大高宽比、任意方向和密集分布的空中物体检测是必要的。随着一般目标检测的发展,许多面向定向目标检测的设计良好的方法被提出[1,7,24,35,38, 40,42],在具有挑战性的数据集[21,35]上显示出了良好的性能。为了检测任意方向的目标,一些方法[1, 22,43]采用了大量不同角度、尺度和长宽比的旋转锚点,取得了更好地回归,但同时增加了计算复杂度。Ding等人提出RoI Transformer[7]将水平RoI(HRoI)转换为旋转RoI(RRol),避免了使用大量锚点。滑动顶点[36]和CenterMap[30]分别使用四边形和掩模来精确地描述有方向的对象。R3Det和S2A-Net在水平感受野和旋转锚点之间对齐特征。DRN [24]通过动态特征选择和细化来检测定向对象。CSL [38]将角度预测作为一种分类任务,以避免不连续的边界问题。近年来,一些基于CenterNet[44]的方法[24,31,41]在检测小目标方面具有自己的优势。上述方法都致力于改进目标表示或特征表示。而我们的方法则致力于改进整个网络的特征表示:从主干(backbone)到检测头(head)。具体来说,我们的方法在backbone中产生旋转等变特征,显著降低了建模方向变化的复杂性。在head中,RiRoI对齐提取完全旋转不变的特征来进行鲁棒的目标定位。

2.2. Rotation-equivariant Networks

Cohen等人首次提出了group convolutions[5],将4倍旋转等变性纳入CNN中。HexaConv[13]在六边形框架上将group convolution扩展到6倍旋转等变性。为了实现在更多方向上的旋转等变性,一些方法通过插值重新采样滤波器,而其他方法[32,33,34]使用谐波作为滤波器在连续域产生等变特征。上述方法逐渐将旋转等变性扩展到更大的群体,并在分类任务上取得了良好的效果,而我们的方法将旋转等变网络纳入目标检测器中,在检测任务上显示出了显著的改进。据我们所知,这是第一次将旋转等变性系统地应用于定向目标检测。

2.3. Rotation-invariant Object Detection

旋转不变特征对于检测任意方向的目标具有重要意义。然而,CNN在建模旋转变化方面表现较差,这意味着需要更多的参数来对方向信息进行编码。STN [14]和DCN [6]显式地对网络内的旋转进行建模,并已广泛应用于定向目标检测[7,28,29]。Cheng等人[4]提出了一个旋转不变层,它对目标施加了一个显式的正则化约束。虽然上述方法可以在图像中高度实现近似的旋转不变性,但还需要大量的训练样本和参数。此外,目标检测还需要实例级的旋转不变特征。因此,一些方法[7,22]将RoI warping[8]扩展到RRoI warping,例如,RoI Transformer[7]试着将HRoI转换为RRoI,并通过对旋转位置敏感的RoI对齐来扭曲区域特征。然而,规则的CNN并不是旋转等变的。因此,即使通过RRoI对齐,我们仍然不能提取出旋转不变的特征,如图1所示。与上述方法不同,我们的方法提出了旋转不变的RoI对齐(RiRoI Align)来从旋转等变特征中提取旋转不变特征。具体地说,我们将旋转等变网络纳入主干中,以产生旋转等变特征,然后RiRoI Align从空间和方向维度的旋转等变特征中提取完全旋转不变特征。

3. Preliminaries

等变性是将平移应用到输入以可预测的方式产生特征平移的一个属性。形式上,给出一个变换group G和一个函数Φ:X→Y,等变性可以表示为:

640.png

其中,Tg表示对应空间中的一个组动作。特别是当TgY对所有TgX都相同时,等变性变成不变性

通常,CNNs是平移(translation)等变的。设Tt表示平移组(R2、+)的一个动作,并将其应用于K维特征映射 f:Z2→RK,平移等变可表示为:

640.png

其中,ψ:Z2→RK表示卷积滤波器,∗为卷积运算。最近提出的方法[5,13,33]将CNNs扩展到large groups,实现了平移和旋转等变性。设H表示一个旋转group,例如,包含由2π/N的角倍表示的离散旋转的循环group CN。我们可以将group G定义为平移组(R2,+)和旋转组H的半直接产物,即G定义为(R2,+)⋊H。在Eqn. 2中用 g∈G 替换 x ∈(R2,+),旋转等变卷积可以定义为:

640.png

Rotation-equivariant Networks.

常规的CNNs由一系列的卷积层组成,并拥有平移权重共享。类似地,旋转等变网络是一个具有较高权重共享程度的旋转等变层的堆栈,即平移和旋转。形式上,设Φ = {Li|i∈{1,2,···,M}}表示group G下具有M个旋转等变层的网络。对于一个Li∈Φ的层,旋转变换Tr可以被该层保留:

640.png

如果我们将Tr应用于输入I,并将其提供给网络Φ,则转换Tr将被整个网络保留:

640.png

Rotation-invariant Features.

对于应用于输入的任何旋转变换Tr,如果其输出保持不变,我们说输出特征是旋转不变的。旋转不变的特征可以分为三个层次:图像级、实例级和像素级。这里我们主要关注实例级的旋转不变特征,它更适合于目标检测任务。设IR∈I和fR∈f分别表示图像I和特征图 f(f = Φ(I))的RoI。假设IR是一个对方向具有不变性的HRoI(x、y、w、h),其中(x、y)、w和h分别表示HRoI的中心点、宽度和高度。而TrIR是一个与取向θ相关的RRoI(x,y,w,h,θ)。类似于Eqn. 5、对于RoI IR,旋转等变性可以表示为:

640.png

如果我们将HRoI IR视为图像I中RRoI TrIR的旋转不变表示,那么Φ(IR)可以看作是Φ(TrIR)在相应特征空间中的旋转不变表示。为了得到Φ(IR),我们需要知道旋转变换Tr。幸运的是,Tr通常是方向θ的函数:Tr = T(θ)。在实践中,我们可以简单地采用RRPN [22]或R-CNN来学习RRoI的方向θ,以及变换Tr。最后,通过对Eqn. 6应用逆变换Tr’,可以得到旋转不变特征Φ(IR):

640.png

4. Rotation-equivariant Detector

本节详细介绍了本文所提出的旋转等变检测器(ReDet),以编码旋转等变性和旋转不变性。首先,我们采用旋转等变网络作为backbone来提取旋转等变特征。如前所述,直接将RRoI对齐应用于旋转等变的特征映射,并不能获得旋转不变的特征。因此,我们设计了一种新的旋转不变RoI对齐(RiRoI对齐),它从旋转等变特征映射中生成RoI级旋转不变特征。ReDet的总体架构如图3所示。对于一个输入图像,我们将其提供给旋转等变backbone。然后我们采用RPN生成HROI,然后使用一个RoI转换器(RT)[7]将HROI转换为RROIs。最后,采用RiRoI对齐方法提取旋转不变特征,进行ROI方向分类和Bbox回归。


640.png

Figure 3. Overview of our proposed method. (a)所提出的旋转等变检测器的总体体系结构。我们首先采用旋转等变主干来提取旋转等变特征,然后使用RPN和RoI变换器(RT)[7]来生成RRoIs。然后,我们使用一种新的旋转不变的RoI对齐(RiRoI对齐)来产生旋转不变的特征,用于RoI方向的分类和边界盒(bbox)回归。(b)旋转-等变特征映射。在循环群CN下,大小为(K、N、H、W)的旋转等变特征映射有N个方向通道,每个方向通道对应于CN中的一个元素。© RiRoI对齐。所提出的RiRoI对齐由两部分组成:空间对齐和方向对齐。对于RRoI(x,y,w,h,θ),空间对齐从空间维度扭曲RRoI,而方向对齐则循环切换方向通道并插值特征,以产生完全旋转不变的特征。

4.1. Rotation-equivariant Backbone

现代目标检测器通常采用深度CNN作为骨干,自动提取具有丰富语义信息的深度特征,如广泛使用的具有特征金字塔网络(FPN)[17]的ResNet [12]。我们还采用了带有FPN的ResNet作为baseline,并以ReFPN实现了一个旋转等变骨干,命名为Rotation-equivariant ResNet (ReResNet)。

具体来说,我们利用基于e2cnn [32]的旋转等变网络重新实现了主干网的所有层,包括卷积、池化、归一化、非线性等。考虑到计算预算,ReResNet和ReFPN只与离散群(R2,+)⋊CN等变,即所有的平移和N个离散旋转。如图3 (b)所示,我们可以将一幅图像提供给旋转等变主干,以生成旋转等变特征图。与普通的特征映射不同,大小为(K、N、H、W)的旋转等变特征图 f 有N个方向通道:f = {f (i) |i∈{1、2、···、N}},每个方向通道f (i)的特征映射对应于CN中的一个元素。

与普通骨干相比,旋转等变骨干具有以下优点:(a)具有更高程度的权重共享。正如我们所介绍的,旋转等变特征映射有一个额外的方向维度。来自不同方向的特征通常共享具有不同旋转变换的相同过滤器,即旋转权重共享。(b)丰富的方向信息。对于具有固定方向的输入图像,旋转等变主干可以产生多个方向的特征。这对于定向目标检测很重要,因为其需要准确的方向信息。©模型尺寸较小。与基线相比,我们在设计主干时,有两种选择:相似的计算或相似的参数。通常,我们保持与基线相似的计算,即,保持相同的输出通道。由于旋转权值共享,我们的旋转等变主干的模型尺寸有巨大减小,只有约1/N的参数。

4.2. Rotation-invariant RoI Align

如第3节所述,对于一个RRoI(x,y,w,h,θ),我们可以通过RRoI扭曲从旋转等变特征映射中提取旋转不变的RoI特征。然而,普通的RRoI扭曲只能在空间维度上对齐特征,而方向维度则不对齐。因此,我们提出RiRoI对齐来提取完全旋转不变的特征。如图3 ©所示,RiRoI对齐包括两部分:(a)空间对齐。对于RRoI(x,y,w,h,θ),空间对齐将在空间维度将特征图 f 扭曲,产生旋转不变区域特征 fR,这与RRoI Align [7]一致。(b)方向对齐。为了确保具有不同方向的RRoI产生完全旋转不变的特征,我们在方向维度上进行方向对齐。具体来说,对于输出区域特征fRˆ,我们将方向对齐表示为:

640.png

其中,SC和Int分别表示切换信道和特征插值操作。对于区域特征fR,我们首先计算一个索引r,然后循环切换方向通道,以确保CN®是第一个方向通道。然而,由于旋转等变性仅在离散群CN中实现,如果θ不属于CN,我们也需要插入特征。更准确地说,我们用最接近它的 L 个方向通道来插入方向特征。例如,L = 2的第i个方向通道的输出特征可以表示为:

640.png

其中,α = θN/2π−r表示1维插值的距离系数。注意,我们使用mod函数来确保i(以及i + 1)∈[1,N]。

Comparison with RRoI Align+MaxPool.

与RiRoI对齐不同的是,用RRoI对齐扭曲RoI特征,然后在方向维度(即方向池)上进行最大池化,是另一种提取旋转不变特征的方法。在分类任务[5,33,45]中,通常采用定向池化操作。对于特征图中的每个位置,它只保留响应最强的方向,而来自其他方向的特征则被放弃。然而,我们认为,从所有方向的响应,无论强或弱,对物体识别是必不可少的。在我们的RiRoI对齐操作中,来自所有方向的特征都被保留下来,并与方向对齐操作对齐。在第5节,我们将进行实验,以显示我们的RiRoI对齐的优势。

5. Experiments and Analysis

5.1. Datasets

DOTA [35]是航空图像中定向目标检测的最大数据集,有两个发布版本:DOTA-v1.0和DOTA-v1.5。DOTA-v1.0包含2806张大型航空图像,尺寸范围从800×800到4000×4000,188282个实例包含:飞机(PL)、棒球钻石(BD)、桥梁(BR)、地面跑道(GTF)、小型车辆(SV)、大型车辆(LV)、船舶(SH)、网球场(TC)、篮球场(BC)、储罐(ST)、足球场(SBF)、环岛(RA)、港口(HA)、游泳池(SP)和直升机(HC)。DOTA-v1.5是针对2019 DOAI挑战发布的,它有一个新的类别,集装箱起重机(CC)和更多的非常小的实例(小于10像素)。DOTA-v1.5包含402,089个实例。与DOTA-v1.0相比,DOTA-v1.5在训练过程中更具挑战性,但也更稳定。

按照之前方法[7,10]中的设置,我们同时使用训练集和验证集进行训练,并使用测试集进行测试。我们将原始图像裁剪为1024个×1024补丁,步幅为824。为避免在训练过程中过拟合,我们采用随机水平翻转,不使用其他技巧。为了与其他方法进行公平的比较,我们准备了三个尺度{0.5、1.0、1.5}和随机旋转的多尺度数据来进行训练和测试。

HRSC2016 [21]是一个具有挑战性的具有OBB注释的船舶检测数据集,它包含1061张航空图像,大小范围从300×300到1500×900。在训练、验证和测试集中分别包含436、181和444张图像。我们使用训练和验证集进行训练,使用测试集进行测试。在不改变高宽比的情况下,所有图像的大小都被调整为(800,512)。在训练过程中采用随机水平翻转。

5.2. Implementation Details

ImageNet pretrain.

对于原始的ResNet [12],我们直接使用来自Pytorch [25]的ImageNet预训练模型。对于ReResNet,我们基于mmclassification实现了它。我们在ImageNet-1K上以初始学习率0.1训练ReResNet。所有的模型都被训练了100个epoch,在第{30、60、90}epoch,学习率除以10。batch size被设置为256。

Fine-tuning on detection.

我们采用带有FPN [17]的ResNet [12]作为baseline method的骨干。采用带有ReFPN的ReResNet作为我们提出的ReDet的主干。对于RPN,我们在每个金字塔层的每个位置设置了15个锚点。对于R-CNN,我们采样了512个正负样本比为1:3的ROI进行训练。对于测试,我们在NMS之前采用10000个RoIs(每个金字塔层采用2000个),在NMS之后采用2000个RoIs。我们采用与mmdetection[3]相同的训练schedule。采用SGD优化器,初始学习率为0.01,每次衰减学习率除以10。动量衰减和重量衰减分别为0.9和0.0001。我们在DOTA以12个epoch训练所有模型,在HRSC2016训练36个epoch。我们使用4个V100 GPU,总batchsize为8进行训练,并使用一个V100 GPU进行推理。

5.3. Ablation Studies

在本节中,我们在DOTA-v1.5测试集上进行了一系列的消融实验,以评估我们所提出的方法的有效性。请注意,我们分别使用原始的ResNet+FPN和RRoI Align方法作为基线方法的主干和RoI扭曲方法。

Rotation-equivariant backbone.

我们评估了在不同设置下使用ReResNet50+ ReFPN的旋转等变主干的有效性。如Tab. 1中所示,与ResNet50相比,ReResNet50由于参数的减少而获得了较低的分类精度,但它获得了较高的检测mAP。我们发现在循环组c8下的主干实现了更好的精度-参数权衡。在C8下,ReResNet50+ReFPN仅通过1/8的参数(103 Mb vs. 12 Mb)获得了1.83检测mAP的改进。此外,我们还将ReResNet +ReFPN扩展到Tab. 2中的其他方法。使用ReResNet50+ReFPN的Faster R-CNN OBB和RetinaNet OBB都优于同类,这进一步证明了旋转等变骨干的有效性。

640.png


Effectiveness of RiRoI Align.

如Tab. 3中所示。与RRoI Align相比,RiRoI Align由于其定向对齐机制有显著改善。而RRoI Align+MaxPool导致mAP显著下降,这表明在定向目标检测中,方向池化是不可取的。与RRoI对齐相比,使用l = 2插值的RiRoI对齐获得了最高的66.86 mAP和0.87 mAP改进。此外,我们发现使用l = 4插值的RiRoI对齐只获得0.33 mAP改进。原因可能是太多的插值损害了等变性质和不同方向之间的内部关系。

640.png

Comparison with rotation augmentation.

从另一个角度来看,我们的方法可以看作是一种特殊的网络内旋转增强方法,它从一个方向学习,可以应用于多个方向。

相比之下,旋转增强通过生成具有更多方向的样本来增强网络,通常需要更多的时间来收敛。如Tab. 4中所示。虽然我们的方法在1x schedule下没有超过旋转增强baseline,但我们保留相似数量参数的ReDet∗,获得了2.59mAP改进,只有18%的额外训练时间。此外,使用旋转增强的2x schedule baseline比我们的ReDet∗高0.68,但它需要两倍的训练时间。

640.png

Performance on other datasets.

为了证明我们所提出的方法的泛化性,我们还评估了ReDet在DOTA-v1.0和HRSC2016上的性能。如Tab. 5中所示。与baseline相比,ReDet在两个数据集上都取得了更好的性能。此外,ReDet在AP75和mAP方面有显著的改进,这证明了其准确的定位能力。

640.png


5.4. Comparisons with the State-of-the-Art

Results on DOTA-v1.0.

如Tab. 6中所示。我们将我们在DOTA-v1.0 OBB任务上的ReDet与其他最先进的方法进行了比较。在没有其他技巧的情况下,我们的单尺度模型达到了76.25 mAP,优于所有单尺度模型和大多数多尺度模型。通过有限的数据增强(即多尺度数据和随机旋转),我们的方法在整个数据集中实现了最先进的80.10 mAP,并在12/15个类别中获得了最佳或次优的结果。

640.png

Results on DOTA-v1.5.

与DOTA-v1.0相比,DOTA-v1.5包含了许多非常小的实例,这增加了目标检测的难度。我们在Tab. 7中报告了在DOTA-v1.5测试集上的OBB和HBB结果。使用单尺度数据,我们的方法实现了66.86 OBB mAP和67.66 HBB mAP,大大优于RetinaNet OBB、Faster R-CNN OBB、Mask R-CNN [11]和HTC [2]。特别是对于具有小实例(如HA、SP、CC)和大尺度变化(如PL、BD)的类别,我们的方法表现得更好。此外,如图2所示,我们的ReDet实现了更好的参数与精度的权衡,这进一步证明了它的有效性。与之前的最佳结果OWSR [15]相比,我们的多尺度模型达到了最先进的性能,约为76.80 OBB mAP和78.08 HBB mAP。我们的ReDet和基线方法之间的定性比较见图4。

640.png

640.png

Results on HRSC2016.

HRSC2016包含了许多具有任意方向的窄船舶实例和长船舶实例。我们将ReDet与Tab. 8中其他最先进的方法进行了比较。我们的方法达到了最先进的性能,即在VOC2007和VOC2012指标下,mAP分别为90.46和97.63。

640.png


6. Conclusions


本文提出了一种用于航空目标检测的旋转等变检测器,它由旋转等变主干网和RiRoI对齐器两部分组成。前者产生旋转等变特征,而后者从旋转等变特征中提取旋转不变特征。在DOTA和HRSC2016上进行的大量实验证明了我们的方法的有效性。

相关文章
|
7月前
|
机器学习/深度学习 算法 计算机视觉
【论文速递】CVPR2022-弱监督旋转不变的航空目标检测网络
【论文速递】CVPR2022-弱监督旋转不变的航空目标检测网络
|
自然语言处理 测试技术 计算机视觉
OpenVI-感知理解系列之GAP骨骼点动作识别 ICCV23顶会论文深入解读
本文介绍了ICCV23中稿论文 GAP: Generative Action Description Prompts for Skeleton-based Action Recognition
1032 2
|
2月前
|
机器学习/深度学习 算法 数据挖掘
CVPR2024 医学图像相关论文
CVPR2024医学图像相关论文汇总,涵盖图像重建、超分、配准、分割、生成、分类、联邦学习、预训练模型、视觉-语言模型及计算病理等多个领域。包括多项创新技术,如QN-Mixer、PrPSeg、MAPSeg等,涉及多个开源项目和代码。持续更新中,欢迎关注。原始GIT地址:https://github.com/MedAIerHHL/CVPR-MIA
136 0
|
7月前
|
机器学习/深度学习 人工智能 计算机视觉
【CVPR小目标检测】- ISNet红外小目标检测
【CVPR小目标检测】- ISNet红外小目标检测
227 1
|
7月前
|
机器学习/深度学习 计算机视觉
【论文速递】CVPR2022 - 学习 什么不能分割:小样本分割的新视角
【论文速递】CVPR2022 - 学习 什么不能分割:小样本分割的新视角
|
7月前
|
机器学习/深度学习 数据可视化 计算机视觉
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
|
7月前
|
机器学习/深度学习 数据挖掘 网络安全
【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏
【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏
|
传感器 计算机视觉
【论文解读】单目3D目标检测 DD3D(ICCV 2021)
本文分享单目3D目标检测,DD3D 模型的论文解读,了解它的设计思路,论文核心观点,模型结构,以及效果和性能。
652 1
|
机器学习/深度学习 自动驾驶 定位技术
【论文解读】SMOKE 单目相机 3D目标检测(CVPR2020)
 SMOKE是一种用于自动驾驶的实时单目 3D 物体检测器。为什么会注意这边文章呢?是因为这两天发布的百度Apollo 7.0 的摄像头障碍物感知,也是基于这个模型改进的;于是令我产生了一些兴趣。
476 0
|
数据可视化 计算机视觉
【论文解读】单目3D目标检测 MonoDLE(CVPR2021)
本文分享单目3D目标检测,MonoDLE模型的论文解读,了解它的设计思路,论文核心观点,模型结构,以及效果和性能。
431 0