【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)

简介: 【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)

【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)

该文针对现有遥感图像目标检测算法对于复杂场景下多尺度目标检测精度较低、泛化能力差的问题,提出了一种多尺度卷积神经网络遥感目标检测框架———MSCNN。

1.引言

遥感目标自动检测技术不仅是一种实现遥感目标自动分类和定位的智能化数据分析方法,还是遥感图像解译领域的重要研究方向之一。

传统的遥感图像目标检测方法是根据人工经验设计特征,虽然在特定的应用场景下能取得较好的检测效果,但该类方法对先验知识的依赖性强,导致

检测模型的自适应性与泛化能力较差。而MSCNN用到的是深度卷积神经网络,它可以从数据中主动学习特征,不依赖于人工经验。

基于深度卷积网络的目标检测模型在研究理念上可以分为两类:

1)基于回归的目标检测框架:直接在图像上回归出目标的边框位置和物体类别。(具体回归过程看最后链接)

2)基于区域建议的目标检测框架:该类方法基于原始图像生成一系列区域建议,并将区域建议和特征图输入感兴趣区域池化层,最终实现目标的分类与定位。(具体过程看最后链接)

本文先设计了一 种多尺度特征金字塔网络——EFPN。再基于EFPN 构造多尺度卷积神经网络的遥感目标检测框架(MSCNN),来提高多尺度遥感目标的预测能力。

2.MSCNN检测框架

2.1MSCNN网络结构、

MSCNN 基于RetinaNet目标检测网络。MSCNN整体结构框架图如下所示:

1ecd1b2606ed46e9956a89f231c9802c.png

其中 A (左)膨胀瓶颈结构, B(右)为带有1×1卷积的膨胀瓶颈结构:

1ecd1b2606ed46e9956a89f231c9802c.png

首先以 ResNet-50作为基础网络构造了一种新的特征金字塔网络 EFPN,生成了新的融合预测特征。再通过目标检测子网络,分别给出多尺度目标的分类得分和边框位置。最后再采用非极大值抑制原理将相似结果进行合并,输出最终检测结果。

2.2EFPN

EFPN金字塔网络是一个自底向上的通路,从主干中选取卷积块{C3,C4,C5}作为基础层级结构。添加特征映射C6 和C7,以获得更精确的语义信息,特征层C6和C7的计算式为:

1ecd1b2606ed46e9956a89f231c9802c.png

式中:Conv2D为二维卷积算子,它将给定的特征图与预定义的卷积核 进行卷积;k为卷积核的数量;s为内核的尺度;RELU 为激活函数。因此,通过自底向上的路径生成了特征图{C3,C4,C5,C6,C7}。

为了进一步提高网络的特征表达能力,本文在ResNet-50的第4阶段以后,首先将步长锁定为16×,然后将通道维度控制为256,接着在每个阶段之后均部署了一个低复杂度的膨胀瓶颈结构(带有1*1卷积的),以保障网络能生成更深的特征图,且能保持较高的分辨率。最后通过自上而下的通路,构建出了特征金字塔网络层级{P3,P4, P5,P6,P7}。新的特征金字塔 EFPN将包含 P3~ P7共5层预测层。这些特征层级的计算方法为:

1ecd1b2606ed46e9956a89f231c9802c.png

式中:序数 N=3,4,5,6,7;序数 N′=3,4,5,6,且j

为由N 生成的索引;RN 为自底向上路径经过卷积降维得到的特征层;TN 为经过特征堆叠得到的新特征;U(·)为将Tj 的尺度调整到CN 大小的算子;PN 为自顶向下构造的输出特征。所有的预测特征最后都将被送入检测网络进行多尺度目标预测。

2.3损失函数

在实际的遥感影像数据中,正、负样本的不平衡现象普遍存在。然而,极端的正、负样本不平衡将会导致网络训练过程中正样本在数据中占比较少,从

而使网络训练效率降低,使得一些难以学习的正样本得不到充分的学习,严重制约了检测网络在遥感目标检测任务中的检测性能。为此,本文引入聚焦

分类损失,通过动态缩放交叉熵,快速地将模型的训练集中在难样本稀疏集上,用以加强网络对于遥感图像中难样本的学习和挖掘。本文所提出的多

任务联合损失函数为:

1ecd1b2606ed46e9956a89f231c9802c.png

式中:Ncls为批量尺度;Nloc为锚点框数量;α 为平衡超参数;p*i 为目标的真实类别标签;pi 为预测相应类别的概率;ti 为 预 测 的4个 参 数 化 坐 标 向 量;t*i为真实边框参数;i为批量数据中锚点框的索引;Lfl和Lloc分别为聚焦分类和边框回归损失,其中Lfl可定义为:

1ecd1b2606ed46e9956a89f231c9802c.png

式中:αt∈[0,1],为 平 衡 超 参 数;(1-pt)γ 为 调 制

因子,pt 为前景目标对应的预测概率;γ∈[0,5],为超参数,当γ>0时意味着模型将更专注于难样本的训 练。Lloc通常采用SmoothL1损失,其表达式为:

image.png

3.实验结果与分析

3.1数据集与评价指标

本文在 NWPU VHR-10公开数据集上进行多尺度目标检测实验。NWPU VHR-10数据集是一个用于多类多尺度目标检测的地理空间目标检测公开数据集。 共包含650幅光学遥感图像,平均尺度约为600×800,共标注了757架飞机、302艘船只、655个油罐、390个棒球场、524个网球场、159个篮球场、163个田径场、224个港口、124座桥梁,以及477辆车。图像分辨率在0.5~2.0m 之 间,每一幅图像至少包含一个目标。

根据NWPUVHR-10数据分布信息统计,定义了相应的边界框尺度量,如下所示:

image.png

本文采用平均检测精度(mAP)作为目标检测的评价指标,该指标衡量了所有类别的检测精度的均值。AP 值越高代表检测性能越好。此外,本文还评估了在不同IOU 阈值和不同边界框尺度(small、medium,andlarge)下目标的检测精度和召回率,分析了所提方法对多尺度目标的检测能力。IOU 代表了检测框与真值框的交并比,其定义可以表示为:

image.png

式中:GT为真值框;DR为检测结果。

3.2 参数设置

本文训 练 和 测 试 采 用 的 硬 件 平 台 为 NVIDIA TitanXpGPUs,利用Pytorch开源深度学习框架完成实验的构建。实验过程采用端到端训练方式,初始学习率设置为0.001,优化方法为随机梯度下降,动量设置为0.9,正则化系数设置为0.0005,批处理大小设置为1。

3.3 主要结果

1ecd1b2606ed46e9956a89f231c9802c.png

MSCNN 在 NWPU VHR-10公开数据集上的平均检测精度相较于 MSDN 提升了0.4%,相较于 FPN提升了2.9%。由 上 述 分 析 可 知,本 文 提 出 的 基 于EFPN 的 MSCNN 能有效提高多尺度目标的检测性能。

3.4消融实验

为了证明EFPN组件在检测框架中所发挥的性能,本文设计了一 组 对 比 实 验。EFPN取得了0.960@AP50以及0.824@AP75的平均检测精度,相 较 于 RetinaNet取 得 了1.5%@AP50和1.5%@AP75的增益,表现出了更高的检测精度。此 外,EFPN还取得了0.547@small、0.578@medium 和0.701@large 的 多 尺 度 平 均 检 测 精 度,相 较 于RetinaNet取 得 1.5% @small、1.9% @medium 和1.9%@large的增益,表现出了对多尺度目标检测的优越性。因此,在多尺度遥感目标检测中,EFPN 组件相较于 RetinaNet具有更为明显的优势。

3.5 多尺度目标检测

1ecd1b2606ed46e9956a89f231c9802c.png

AP50是评价模型分类能力的有效指标,AP75能够体现出检测框架对边界 框位置回归的能力。如 表4所 示,MSCNN取得了0.960@AP50以及0.824@AP75的 平 均 检 测 精 度,相 较 于 RetinaNet取 得 了1.5%@AP50和1.5%@AP75的 增 益。即 MSCNN 目标检测框架具有更高的分类能力和边框回归精度。

此外,MSCNN 取得了0.600@small、0.605@medium和0.755@large的平均召回率,相较于 RetinaNet网络取得了2.7%@small、1.9%@medium 和0.1%@large的增益,说明其对小尺度目标在召回率上具有一 定 优 势。 事 实 上,与 RetinaNet 网 络 相 比,MSCNN 在深层阶段 的 分 辨 率 更 高,同 时 还 生 成 了更新的阶段。因此,MSCNN 可以在更深阶段检测到更小尺度的目标。

4.结论

MSCNN方法首先设计了一种多尺度特征提取骨架,并在此基础上构造出一种深度特征金字塔EFPN,从而能够更加有效地对遥感图像中的多尺度目标特征的学习。此外,聚焦分类损失作为分类损失函数,进一步改善了目标检测网络对于遥感图像中难样本的挖掘能力。该方法在NWPUVHRG10公开数据集上获得了0.906的平均检测精度,相较于其他遥感目标检测框架,实现

了对多尺度遥感目标的高精度稳健检测。


相关文章
|
14天前
|
机器学习/深度学习 计算机视觉 Python
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力本文提出了一种简单且高效的卷积神经网络(ConvNets)注意力模块——SimAM。与现有模块不同,SimAM通过优化能量函数推断特征图的3D注意力权重,无需添加额外参数。SimAM基于空间抑制理论设计,通过简单的解决方案实现高效计算,提升卷积神经网络的表征能力。代码已在Pytorch-SimAM开源。
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
|
16天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络:从理论到实践
【10月更文挑战第35天】在人工智能的浪潮中,深度学习技术以其强大的数据处理能力成为科技界的宠儿。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,在图像识别和视频分析等领域展现出了惊人的潜力。本文将深入浅出地介绍CNN的工作原理,并结合实际代码示例,带领读者从零开始构建一个简单的CNN模型,探索其在图像分类任务中的应用。通过本文,读者不仅能够理解CNN背后的数学原理,还能学会如何利用现代深度学习框架实现自己的CNN模型。
|
6天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第36天】探索卷积神经网络(CNN)的神秘面纱,揭示其在图像识别领域的威力。本文将带你了解CNN的核心概念,并通过实际代码示例,展示如何构建和训练一个简单的CNN模型。无论你是深度学习的初学者还是希望深化理解,这篇文章都将为你提供有价值的见解。
|
17天前
|
机器学习/深度学习 监控 自动驾驶
卷积神经网络有什么应用场景
【10月更文挑战第23天】卷积神经网络有什么应用场景
18 2
|
7天前
|
机器学习/深度学习 人工智能 自动驾驶
深入解析深度学习中的卷积神经网络(CNN)
深入解析深度学习中的卷积神经网络(CNN)
21 0
|
11天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第32天】本文将介绍深度学习中的一个重要分支——卷积神经网络(CNN),以及其在图像识别领域的应用。我们将通过一个简单的代码示例,展示如何使用Python和TensorFlow库构建一个基本的CNN模型,并对其进行训练和测试。
|
16天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
16天前
|
机器学习/深度学习 自然语言处理 TensorFlow
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第26天】在这篇文章中,我们将深入探讨卷积神经网络(CNN)的基本原理、结构和应用。CNN是深度学习领域的一个重要分支,广泛应用于图像识别、语音处理等领域。我们将通过代码示例和实际应用案例,帮助读者更好地理解CNN的概念和应用。
|
3天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【10月更文挑战第39天】在数字化时代,网络安全和信息安全成为了我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,帮助读者更好地了解网络安全的重要性,并提供一些实用的技巧和方法来保护自己的信息安全。
14 2

热门文章

最新文章