深度学习的快速发展使得目标检测技术获益匪浅,近年来深度学习已被广泛应用于目标检测领域。然而,小尺度目标在图像中的像素占比少,自身的语义信息较少。与目前较为成熟的大、中尺度的目标检测技术相对比,小目标检测的效果相对不佳,因此如何提高小目标的检测精度是目前计算机视觉领域的一个难点问题。
微软公司提出的 MS COCO数据集中,将区域面积小于 32×32 像素值的目标定义为小目标。目前小目标检测性能相对较差的原因可以归结如下:(1)小目标自身固有的分辨率很低、像素占比少,因此目标检测网络提取到的有效信息是非常有限的。(2)输入图像通过卷积神经网络多次下采样后,会导致小目标的信息损失严重。(3)缺少大规模的小目标检测数据集,目前目标检测领域的常用数据集(如 SUN、PASCAL VOC、ImageNet等)大多是针对中型、大型尺度的目标进行检测。针对上述问题,国内外研究者提出了相应的改进方法,如:数据增强、多尺度特征融合和超分辨率等。
首先,数据增强是一种有效的改进技巧,可以通过数据增强来增加小目标的样本数量。Kisanta 等人提出使用过采样和增强方法,先调整小目标的尺度(缩放范围是±20%)和位置(旋转范围是±15%),再复制小目标,然后将小目标粘贴到新位置并确保新粘贴的位置不与现有目标重叠,以此增加图像中小目标的数量。此外,YOLOv4中的 Mosaic 数据增强方法,也增加了小目标在训练集中的样本数量。
其次,大多数目标检测方法都是利用卷积神经网络进行特征提取,而卷积神经网络大多采用的是最顶端的高层特征。小目标固有的分辨率低,经过多次下采样后特征图持续不断减小,导致小目标的细节信息丢失严重。多尺度特征融合方式的提出有效缓解了这一现象,在计算量消耗不大的同时增强了特征的表达能力,提高小目标检测的效果。FPN(特征金字塔网络)是典型的多尺度融合结构,它利用自上而下的路径和横向连接,将高分辨率的低层特征与丰富语义信息的高层特征进行融合,后来一些基于 FPN 的改进算法应运而生。
最后,采用超分辨技术也是一种提高小目标检测精度的有效方法。感知生成对抗网络(Perceptual GAN)将生成对抗网络(GAN)应用于超分辨率技术上,挖掘小目标与常规目标之间的结构关联。感知生成对抗网络通过学习小目标与常规目标之间的映射关系,缩小不同尺度目标之间的特征差异,使小目标与常规目标有相似的特征表示,以达到提升小目标检测效果的目的。此后,也出现了一些其他基于 GAN 网络的改进方法,如 MTGAN。GAN 网络的优势在于,能够生成小目标特征相对明显且分辨率高的图像,从而对数据集进行一定的补充。
综上,目前目标检测的主流算法是基于深度学习的,提升小目标检测的精度可以通过数据增强、多尺度融合、超分辨技术等方式。受到前人研究成果的启发,本文提出的改进算法利用 Mosaic 数据增强、多尺度特征融合方法,在 YOLOv5 目标检测算法基础之上,进行了一系列的改进。以 YOLOv5s 和 YOLOv5m 为基准,我们的改进算法在提升中、小型目标检测精度的同时,也基本维持了推理速度。