小目标检测是一个具有挑战性的问题。在过去的几年里,卷积神经网络的方法取得了相当大的进展。然而,目前的检测器却难以实现对小尺度物体的有效特征提取。
为了解决这一挑战,本文提出了图像金字塔Single-shot检测器(IPSSD)。在IPSSD中,采用Single-shot检测器与图像金字塔网络相结合,提取语义上较强的特征来生成候选区域。该网络可以增强特征金字塔网络的小尺度特征。
作者在两个公共数据集上评估了所提出的模型的性能。结果表明,本文所提的模型的性能优于其他最先进的目标检测器。
1、介绍
随着遥感技术的快速发展,遥感图像分析(RSI)因其在学术和工业上的影响而成为一个热门领域。RSI中的目标检测是一个重要的研究领域,也已经进行了大量的研究,为了解决实际问题,已经开发了几种目标检测方法Multi-vision network、MFPN、ASSD。在过去几年中,由于深度学习模型的巨大进步,自然图像中的目标检测已经取得了巨大的成功,包括SSD、R-CNN、用于目标检测的特征金字塔网络(FPN),以及YOLO模型。
最近,用于自然图像的目标检测方法已应用于RSI中的目标检测。Dong等人提出了一个基于Faster r-cnn的模型,并采用转移学习来减少丢失小物体的可能性。
在Cfc-net中,作者提出了一种基于FPN的特征捕获网络,通过改进特征表示和优化标签分配来提高检测精度。
Wang等人介绍了一种名为特征合并Single-shot检测网络(FMSSD)的架构,该架构通过使用FPN和不同的采样率来集成各种大小的信息,以提高特征的质量。
在Olcn中,通过使用低耦合回归和感受野优化层,提出了一种用于小目标检测的模型,以更好地估计感兴趣区域(RoI)。
在REF中,作者提出了一种在各种尺度和方向上提取语义强特征的架构,以更好地检测RSI中的小对象。然而,现有模型中忽略了小目标检测的问题,并且有很大的空间来提高模型的性能。
正如前面所讨论的,在RSI中准确检测仅占据10×10像素区域的小物体是具有挑战性的。在本文中提出了一种基于SSD的新架构来解决上述挑战。本文的主要贡献如下。
- 通过将图像金字塔网络集成到SSD(IPSSD)中,设计了一种用于小目标的检测管道,以实现更强大的语义特征。
- 提出了旋转池化层来覆盖水平和定向区域提议,并设计了定制的特征融合模型,以使提取的特征以更好的形式融合。
- 评估了RSI中的几种最新目标检测模型,并对其性能进行了说明。
2、本文方法
SSD显示了一个有希望的检测结果。在SSD中,每个预测层具有不同的分辨率,其中较浅的层参与小目标检测,较深的层参与大目标预测。尽管SSD具有高性能,但由于SSD早期层中的语义信息较差,因此无法检测小目标。为了解决这个问题,作者通过将SSD与作者提出的图像金字塔网络(IPN)集成以提取ROI来提高特征图的质量。
与区域提议网络(RPN)中仅能够覆盖水平区域proposals的最大池化层不同,提出的旋转池化层可以处理水平和定向区域proposals。此外,还设计了一个特征融合网络(FFN)来改善上下文信息。图1说明了IPSSD的体系结构。
在提出的架构中,SSD被用作基线检测器,其中每个层检测特定比例的目标。这意味着,较浅的层预测小目标,而较大的目标由较深的层预测。然而,由于较浅层中的语义信息不足,SSD无法准确检测小目标。为了解决这个问题,作者使用IPN扩展SSD以提高SSD的性能。
如图1所示,IPSSD包含2个主流:标准SSD和IPN。对于SSD,主干是VGG-16,为了更好地提取特征,增加了更小的卷积层。在本文的模型中,不同规模的IPN层使用FFN集成到SSD的层中。
2.1、Image pyramid network
标准FPN的计算效率和效率都不高,因为CNN处理每个图像的各种尺度。为了解决这个问题,作者提出了一个有效的模型,通过IPN中的RPN生成目标候选。网络包含缩减过程。作为输入的IPN接收不同大小的图像以生成一组框偏移。然后,根据框偏移的比例,模块选择最佳大小的特征图。
首先形成输入图像X,该模型通过缩小输入图像来生成多尺度图像=,其中,表示IPN的层。为了构建多尺度特征图,图像由IPN 处理,其中表示每个层的特征。IPN具有2个1×1和2个3×3层,具有不同数量的通道。
2.2、Oriented candidate regions network
标准RPN采用Anchor来创建ROI。然而,在RSI中,物体的尺度很小,方向各异。事实上,标准RPN创建的水平候选不足以应对RSI中的有困难对目标,为了解决这个问题,作者对标准RPN进行了如下修改:
- 删除了最后3个FC层和softmax层;
- 在卷积层[5−3]之前添加称为reg−conv的网络;
- 3×3×512大小的卷积核用于在分类特征图上生成512维的特征向量;
- 生成的特征向量由和层处理。
对于定向Anchor方案,遵循Sig-nms-based faster rcnn来创建具有各种定向的ROI,并生成更适合的区域,以便更好地检测小目标。更具体地说,候选区域被分成几个子区域。因此,子区域具有与候选区域相同的取向,并且每个子区域具有、的大小。
在本文的模型中,每个输入的旋转区域建议由定义,其中是边界框的中心,分别是边界框(bbox)的高度和宽度,表示从x轴的绝对方向到具有空间大小S的定向bbox的长边的位置。因此,每个子区域的左上角计算为:
其中且的旋转坐标计算如下:
2.3、Feature fusion network
为了改善空间信息,作者还引入了FFN,以将IPN层的特征与SSD层相结合(见图2(d))。
在FFN中,首先,IPN层的输出经过3×3和1×1对流层,然而,每个SSD层的输出仅经过1×1的对流层。然后,通过添加将每个IPN层和SSD层的特征结合起来。然后,存在用于检测的3×3和1×1 Conv层,其中,表示包括1×1、3×3、BN层的过程,表示ReLU激活。
3、实验
3.1、模型比较
为了评估IPSSD在小目标检测中的性能,选择了几个最先进的模型来进行定量和定性的比较。
在表I和表II中报告了模型在DOTA和NWPU数据集的3个小目标类别上与其他方法的检测结果。DOTA上SSD的检测率为70.72mAP,处理速度为64FPS。FMSSD在22 FPS的处理速度下实现了78.06 mAP。然而,IPSSD在53 FPS下处理时达到79.24 mAP。
在图2中评估了IPSSD与其他方法的性能。结果表明,IPSSD可以稳定地产生精确的结果。NWPU数据集模型也优于最先进的模型。本文的检测器达到93.35%的mAP。这一进展是以下部分的结果。
- 通过将IPN结合到SSD中可以创建了一个架构,其中每个图像尺度都具有功能,从而提高了检测器的性能。
- FFN可以提高提出的模型对整个目标部分的关注,从而实现更准确的小目标检测。
图3为DOTA上平均定位误差及与背景混淆的曲线图。与其他模型相比,IPSSD具有更好的性能。
4、参考
[1].ENHANCED SINGLE-SHOT DETECTOR FOR SMALL OBJECT DETECTION IN REMOTE SENSING IMAGES.