前言
在计算机视觉领域,金字塔网络是一种经典而有效的图像处理方法,旨在实现多尺度的特征提取和图像分析。通过构建不同尺度的图像金字塔,金字塔网络能够从粗糙到精细地分析图像内容,为许多视觉任务提供了强大的基础。然而,随着深度学习技术的快速发展,人们开始关注如何改进金字塔网络以更好地适应现代计算机视觉任务的挑战。
基础回顾
什么是特征金字塔:
特征金字塔(Feature Pyramid)是一种计算机视觉中常用的图像处理技术,旨在提取不同尺度下的图像特征。它广泛应用于目标检测、语义分割和图像识别等任务中,以有效地捕捉图像中不同尺度上的语义信息。
在提取图像特征时,如果只使用单一尺度,会导致对物体大小的不确定性,从而丢失一些细节信息。为了解决这个问题,目标检测模型通常采用特征金字塔架构。其中,最常用的特征金字塔架构是FPN(特征金字塔网络),通过使用FPN,无论是单级还是两级的检测器都能够得到更好的检测结果。
在FPN的基础上,有一种改进的特征金字塔网络叫做PAFPN(金字塔自底向上特征网络)。PAFPN在特征金字塔网络中增加了一条自下而上的路径,这样就可以弥补FPN中高层特征缺乏底层特征细节的不足。也就是说,PAFPN能够更好地结合不同尺度的特征信息,使得目标检测模型在各个层次上都能获取到准确的细节特征,从而提高检测的效果。
渐近特征金字塔网络
启发思路:
现有的特征金字塔网络通常是将骨干网络生成的高级特征上采样到低级特征上。受HRNet网络架构的启发,我们提出了一个渐进特征金字塔网络(AFPN)来解决上述限制。在主干自底向上的特征提取过程中,我们在第一阶段通过结合两个不同分辨率的低级特征来启动融合过程。随着我们进入后期阶段,我们逐渐将高级特征纳入融合过程,最终融合主干的顶级特征,这种融合方式可以避免非相邻层之间存在较大的语义差距。
设计思路:
在此过程中,低级特征与高级特征的语义信息融合,高级特征与低级特征的细节信息融合。由于它们之间的直接相互作用,避免了多级传输过程中信息的丢失或退化。在整个特征融合过程中,由于层次之间的某一位置可能存在不同对象的矛盾,元素求和并不是一种有效的方法。为了解决这一问题,我们利用自适应空间融合运算对多层次融合过程中的特征进行过滤。这使我们能够保留有用的信息进行融合。
结构
渐近特征金字塔网络(AFPN)的体系结构。在初始阶段,AFPN融合了两个低级特征。这个后续阶段融合更高层次的特征,而最后阶段在特征融合过程中添加顶级特征。缺少箭头表示卷积,海蓝宝线箭头代表自适应空间融合。
实验结果
根据表1的数据,当输入图像尺寸为640 × 640时,我们的方法表现出很好的性能,平均精度(AP)达到了39.0%,甚至比一些分辨率更高的模型还要好。与FPN和PAFPN相比,我们的AFPN在val2017数据集上的AP分别提高了1.6%和0.9%,在其他指标上也超过了它们。需要注意的是,由于NASFPN是在RetinaNet框架上进行搜索的,它在Faster R-CNN框架上的表现并不是很出色。相比之下,我们的AFPN在AP方面比NASFPN高出了1.3%。另外,当输入图像尺寸为800 × 1000时,我们的AFPN实现了41.0%的AP,超过了其他方法的性能。
在我们的研究中,我们评估了两种不同的检测器:Faster R-CNN和Dynamic R-CNN,并通过实验结果表三进行了比较。可以得到相对于FPN,我们的AFPN更适合用于高精度定位的场景。
在yoloV5中实验,结果如下:与原始的版本颈部相比,改进(AFPN)在检测性能方面有显著提高,尤其是在检测大型物体,在AP,APS,APM和APL指标上保持领先地位。
结语
从大佬们的顶刊文章中探索到特征金字塔的改进方向,这也为日后的研究指明了方向打下了基础。希望本篇探索对诸君有帮助。