二阶段目标检测网络-Cascade RCNN 详解

简介: 二阶段目标检测网络-Cascade RCNN 详解

摘要

虽然低 IoU 阈值,如 0.5,会产生噪声检测(noisy detections),但是,随着 IoU 阈值的增加,检测性能往往会下降。造成这种情况的主要因素有两个:1)由于在训练过程中正样本呈指数下降,过少的正样本导致网络训练期间过拟合。2)dismatch:检测器在最优的 IoU 与输入预测的 IoU 之间会产生mismatch。由此,我们提出了多阶段的目标检测器结构:Cascade R-CNN 来解决 IoU 选择的问题。它由一系列不断增加 IoU 阈值的检测器组成,可以逐步的更接近目标的预测。。检测器是逐步训练的,前一个检测器输出一个良好的数据分布并作为输入,用于训练下一个更高质量的检测器。逐步改进的重采样保证了所有检测器都有一组相同大小的正样本,从而减少了过拟合问题。在 inference 阶段使用级联的检测器结构可以合理的提高了 IOU 的阈值而不会出现 mismatch 问题。

1,介绍

Cascade RCNN 是作者 Zhaowei Cai2018 年发表的论文 Cascade R-CNN: Delving into High Quality Object Detection.

目标检测是一个复杂的问题,需要解决两个主要任务。首先,检测器必须解决识别问题,区分前景目标和背景目标,并为其分配匹配的类别标签。其次,探测器必须解决定位问题,为不同的目标分配精确的 bounding box。许多目标探测器都是基于两阶段网络框架 Faster R-CNN 的。双阶段检测网络是一个多任务学习问题,包括目标的分类和边界回归。与物体识别不同的是,定义正/负样本需要一个 IoU 阈值。通常使用的 IOU 阈值 u=0.50.5IOU 的设置是相当低的。检测的目标经常包含很多噪声,如图 (a)所示。IOU 阈值取0.5,会有很多假的预测信息也都包含在内,从而会产生很多错误的预测信息。

网络异常,图片无法展示
|


1.1,Faster RCNN 回顾

先回顾下 Faster RCNN 的结构,下图是 Faster RCNN 的结构图。

网络异常,图片无法展示
|


training 阶段和 inference 阶段的不同在于,inference 阶段不能对 proposala 进行采样(因为不知道 gt,自然无法计算 IoU),所以 RPN 网络输出的 300RoIs(Proposals)会直接输入到 RoI pooling 中,之后通过两个全连接层分别进行类别分类和 bbox 回归。

值得注意的是,Faster RCNN 网络在 RPNFast RCNN 阶段都需要计算 IoU,用于判定 positivenegative。前者是生成 256Proposal 用于 RPN 网络训练,后者是生成 128RoIs(可以理解为 RPN 网络优化后的 Proposals)用于 Fast RCNN 训练。

1.2,mismatch 问题

training 阶段和 inference 阶段,bbox 回归器的输入 proposals 分布是不一样的,training 阶段的输入proposals 质量更高(被采样过,IoU > threshold),inference 阶段的输入 proposals 质量相对较差(没有被采样过,可能包括很多 IoU < threshold 的),这就是论文中提到 mismatch 问题,这个问题是固有存在的,但通常 threshold0.5 时,mismatch 问题还不会很严重。

2,实验分析

2.1,改变IoU阈值对Detector性能的影响

网络异常,图片无法展示
|


从上图可以看出:

  • 同一个 detector 通常只会在一个小范围的 IoU 阈值 内性能最好,比如 IoU 阈值为 0.5 的 detector,在输入 proposalgt 的阈值为 0.55-0.6 范围内,其性能最好。阈值为 0.6 的 detector 则在 0.6~0.75 阈值范围内性能最佳。
  • 几乎所有的检测器输出框的 IoU 都好于输入 proposal 的 IoU(红绿蓝三条曲线都在灰色对角线上方)。

2.2,提高IoU阈值的影响

主要是分析对提高 IoU 阈值对 RPN 输出 Proposal 数量的影响,实验结果如下图所示。

网络异常,图片无法展示
|


上图纵坐标表示 RPN 输出 proposal 在各个 IoU 范围内的数量。

  • 第一张图表示级联结构的第一级,可以等同为没有级联结构的 RCNN 网络。从图中可以看出,随着 IoU 的增加,IoU 在 0.6,0.7 及以上范围内的 proposal 数量越来越少。虽然这样产生更高精度的 proposal,但是也带来了两个问题:
  • 过拟合
  • 更严重的 mismatch 问题RCNN 结构本身就存在这个问题,IoU 阈值的提高又加剧了这个问题。
  • 第二、三图表示有级联结构的 RCNN,从图中可以看出,随着 stage 的加深,相应区域的依然拥有大量的 proposal,因此不会出现严重的过拟合的现象。

2.3,和Iterative BBox比较

Iterative BBoxH 位置都是共享的,而且 3 个分支的 IoU 阈值都取 0.5Iterative BBox 存在两个问题:

  • 单一阈值 0.5 是无法对所有 proposal 取得良好效果。
  • 此外,detector 会改变样本的分布,使用同一个共享的 H 对检测是有影响的。作者做了下面的实验证明样本分布在各个stage 的变化。

网络异常,图片无法展示
|


红色表示离群点。

  • 从上图可以看出,没经过一次回归,样本都会更靠近 gt,即输出的样本分布会逐渐变化,使用同一个阈值 0.5 的条件下,后面两个 stage 就会有较多的离群点,使用共享的 Head 网络权重是无法满足输入的变化的。
  • 从上图还可以看出,每个阶段设置不同的 IoU 阈值,可以更好的去除离群点,从而适应不同的输入 proposal 分布。

3,网络结构

网络结构如下图(d)

网络异常,图片无法展示
|


上图中 (d) 和 (c) 很像,iterative bbox at inference 是在推断时候对回归框进行后处理,即模型输出预测结果后再多次处理,而 Cascade R-CNN 在训练的时候就进行重新采样,不同的 stage 的输入数据分布已经是不同的了。

简单来说 cascade R-CNN 是由一系列的检测模型组成,每个检测模型都基于不同 IOU 阈值的正负样本训练得到,前一个检测模型的输出作为后一个检测模型的输入,因此是 stage by stage 的训练方式,而且越往后的检测模型,其界定正负样本的 IOU 阈值是不断上升的。

Cascade R-CNN 的几个检测网络(Head 网络)是基于不同的 IOU 阈值确定的正负样本上训练得到的。

作者在 COCO 数据集上做了对比实验,达到了 state-of-the-art 精度。其中 backboneRsNet-101Cascade RCNNAP 达到了 42.8

网络异常,图片无法展示
|


参考资料


相关文章
|
2月前
|
机器学习/深度学习 数据可视化 计算机视觉
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
这篇文章详细介绍了如何通过可视化深度学习中每层特征层来理解网络的内部运作,并使用ResNet系列网络作为例子,展示了如何在训练过程中加入代码来绘制和保存特征图。
67 1
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
|
1月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
2月前
|
机器学习/深度学习 网络架构 计算机视觉
目标检测笔记(一):不同模型的网络架构介绍和代码
这篇文章介绍了ShuffleNetV2网络架构及其代码实现,包括模型结构、代码细节和不同版本的模型。ShuffleNetV2是一个高效的卷积神经网络,适用于深度学习中的目标检测任务。
92 1
目标检测笔记(一):不同模型的网络架构介绍和代码
|
1月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
1天前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
34 17
|
12天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
|
13天前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
36 10
|
14天前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
在数字化时代,网络安全和信息安全已成为我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,并提供一些实用的代码示例。通过阅读本文,您将了解到如何保护自己的网络安全,以及如何提高自己的信息安全意识。
43 10
|
15天前
|
存储 监控 安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的融合与挑战
本文将探讨云计算与网络安全之间的关系,以及它们在云服务、网络安全和信息安全等技术领域中的融合与挑战。我们将分析云计算的优势和风险,以及如何通过网络安全措施来保护数据和应用程序。我们还将讨论如何确保云服务的可用性和可靠性,以及如何处理网络攻击和数据泄露等问题。最后,我们将提供一些关于如何在云计算环境中实现网络安全的建议和最佳实践。
|
16天前
|
监控 安全 网络安全
网络安全与信息安全:漏洞、加密与意识的交织
在数字时代的浪潮中,网络安全与信息安全成为维护数据完整性、保密性和可用性的关键。本文深入探讨了网络安全中的漏洞概念、加密技术的应用以及提升安全意识的重要性。通过实际案例分析,揭示了网络攻击的常见模式和防御策略,强调了教育和技术并重的安全理念。旨在为读者提供一套全面的网络安全知识框架,从而在日益复杂的网络环境中保护个人和组织的资产安全。