【论文解读】CVPR2020|CentripetalNet:目标检测新网络COCO 48%AP超现所有Anchor-free网络(二)

简介: 【论文解读】CVPR2020|CentripetalNet:目标检测新网络COCO 48%AP超现所有Anchor-free网络(二)

3CentripetalNet


  • 网络结构

上图为centrpetalnet的核心结构。Centrpetalnet由四个模块组成,分别是角点预测模块向心移位模块交叉星可变形卷积模块实例掩码头模块

  • 工作原理

首先基于Centernet pipline生成角点候选对象。对于所有的角点候选项,引入向心移位算法来追求高质量的角点对并生成最终的预测边界框。向心偏移模块预测角点的向心偏移,并匹配角对,这些对角对的偏移结果从其位置解码,并且向心偏移对齐。

然后,交叉星可变形卷积,它的偏移场是从角到相应中心的偏移中学习,进行特征适应,丰富角位置的视觉特征,这对于提高向心位移模块的精度是很重要的。

最后,添加了一个实例掩码模块来进一步提高检测性能,并将该方法扩展到实例分割区域。该方法以向心位移模块的预测边框为region proposals,利用RoIAlign提取region特征,并利用小型卷积网络对分割掩码进行预测。centrpetalnet是端到端训练的,可以使用或不使用实例分割模块进行推理。

 

3.1 Centripetal Shift Module


  • Centripetal Shift 向心偏移:


对于一个box

它的中心为:

55f6fce62e19bd960cc3bcb2dc4e2e69.png

作者定义它两个角点的向心偏移为:

c3767d641470bb7258b860d794f67acd.png

这里作者使用对数函数来减少向心位移的数值范围,使学习过程更容易。

在训练中,作者在地面真值角的位置应用平滑的L1损失:

5fd7e1856341a4a4367e8e72556c529d.png

  • Corner Matching.

24aee0a43adcdbc9d06ffc29b3d99c2e.png

为了匹配角点,作者设计了一种利用角点向心位移和位置的匹配方法。一个属于同一边界框的一对角应该共享该框的中心,至少直觉上来说这是合理的。由于我们可以从预测角的位置和向心偏移中解码出相应的中心,因此很容易比较一对角的中心是否足够靠近并接近由角对组成的边界框的中心,例如如图3c)所示。

基于以上观察,作者的方法如下,一旦从角热图和局部偏移特征图中获得角作者将相同类别的角进行分组,满足tlx < brxtly < bry的条件,构造预测边框。对于每个边界框bboxj作者将其得分设置为其角点得分的几何平均值,这些分数是通过在预测的角点热图上应用softmax得到的。然后,如图3所示,作者将每个边界框的中心区域定义为公式3,以比较解码中心和边界框中心的接近度。

 

b9f75041ef8ed45bc60a8491f78a4ac0.png

其角点坐标表示为:

8ef95ae66ea09f061038df56c28ade24.png

其中0<µ1表示中心区域的宽度和高度是边界框的宽度和高度的µ倍。通过向心偏移,可以分别解码左上角和右下角的中心(tlctx, tlcty)(brctx, brcty)

然后作者计算每个预测边界框的得分权重wj,这意味着回归的中心更接近,预测的box有更高的得分权重。

2647e2260b250401e7b20329b602b3f0.png

对于其他边界框,作者设置wj=0。最后,作者可以通过乘以分数权重对预测的边界框进行重新评分。

3.2. Cross-star Deformable Convolution

由于角点池的原因,feature map中出现了一些“cross stars”,如图4(a)所示。“十字星”的边界保持了对象的丰富上下文信息,因为角池使用maxsum操作将对象的位置信息扩展到沿“十字星”边界的角。要获取‘cross star’的上下文信息,不仅需要一个大的感受野,还需要学习‘cross star’的几何结构。基于上述直觉,作者提出了交叉星可变形卷积,这是一种新颖的卷积运算,用于增强拐角处的视觉特征。

作者提出的可变形的交叉星卷积如图2所示。

首先,作者将角池的特征映射输入到可变形的交叉星卷积模块中。为了学习可变形卷积的“十字星”的几何结构,使用对应目标的大小来显式地引导偏移场分支,因为“十字星”的形状与包围盒的形状有关。然而,以左上角为例,他们应该少注意“十字星”的左上角,因为有更多的无用信息在目标之外。

因此,者嵌入了一个导向偏移——从角落到中心的偏移到偏移场分支,如图3(b)所示,它包含了形状和方向信息。具体来说,偏移场是在三个卷积层上进行的。前两个卷积层将角池输出嵌入到feature map中,其Loss如下:

 


第二个卷积层将上述特征映射到偏移量字段,偏移量字段显式地包含上下文和几何信息。作者的cross-star deformable convolution通过将学习到的偏移场可视化,如图7c所示,可以有效地学习' cross star '的几何信息,提取' cross star '的边界信息。

d0e5402b8623ccfec3b7d94e303bd889.jpg


3.3. Instance Mask Head


为了得到实例分割掩码,作者将soft-nms前的检测结果作为region proposals,并利用全卷积神经网络对掩码进行预测。为了保证检测模块能够产生方案,作者首先对中心网进行了几个时代的预训练。选择得分最高的k个提案,然后在主干网的特征图上进行RoIAlign,得到它们的特征。作者将RoIAlign的尺寸设置为14×14,并预测得到一个28×28的掩模。在得到RoI的特性后,作者应用连续四个3×3层卷积,然后用一层反卷积upsample特性映射到28×28 mask地图。在训练过程中,作者对每个区域的方案应用交叉熵损失。

 

4实验和结果


COCO数据集比较:

d20e834986a8af8e73cb635cfe69d323.jpg

1a4fae728113c731c4ce236d6919e239.png

实例分割:

2beca6f588d0166ec5dfa0e4ba8e3807.jpg

a9bc669b39a613681890e3710c2ec6c7.png


相关文章
|
3月前
|
机器学习/深度学习 数据可视化 计算机视觉
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
这篇文章详细介绍了如何通过可视化深度学习中每层特征层来理解网络的内部运作,并使用ResNet系列网络作为例子,展示了如何在训练过程中加入代码来绘制和保存特征图。
75 1
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
|
3月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
87 3
|
4天前
|
负载均衡 芯片 异构计算
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。
|
4天前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
|
2月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
3月前
|
机器学习/深度学习 编解码 算法
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
103 1
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
|
2月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
1月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
73 17
|
1月前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
|
1月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
59 10