【论文解读】CVPR2020|CentripetalNet:目标检测新网络COCO 48%AP超现所有Anchor-free网络(二)

简介: 【论文解读】CVPR2020|CentripetalNet:目标检测新网络COCO 48%AP超现所有Anchor-free网络(二)

3CentripetalNet


  • 网络结构

上图为centrpetalnet的核心结构。Centrpetalnet由四个模块组成,分别是角点预测模块向心移位模块交叉星可变形卷积模块实例掩码头模块

  • 工作原理

首先基于Centernet pipline生成角点候选对象。对于所有的角点候选项,引入向心移位算法来追求高质量的角点对并生成最终的预测边界框。向心偏移模块预测角点的向心偏移,并匹配角对,这些对角对的偏移结果从其位置解码,并且向心偏移对齐。

然后,交叉星可变形卷积,它的偏移场是从角到相应中心的偏移中学习,进行特征适应,丰富角位置的视觉特征,这对于提高向心位移模块的精度是很重要的。

最后,添加了一个实例掩码模块来进一步提高检测性能,并将该方法扩展到实例分割区域。该方法以向心位移模块的预测边框为region proposals,利用RoIAlign提取region特征,并利用小型卷积网络对分割掩码进行预测。centrpetalnet是端到端训练的,可以使用或不使用实例分割模块进行推理。

 

3.1 Centripetal Shift Module


  • Centripetal Shift 向心偏移:


对于一个box

它的中心为:

55f6fce62e19bd960cc3bcb2dc4e2e69.png

作者定义它两个角点的向心偏移为:

c3767d641470bb7258b860d794f67acd.png

这里作者使用对数函数来减少向心位移的数值范围,使学习过程更容易。

在训练中,作者在地面真值角的位置应用平滑的L1损失:

5fd7e1856341a4a4367e8e72556c529d.png

  • Corner Matching.

24aee0a43adcdbc9d06ffc29b3d99c2e.png

为了匹配角点,作者设计了一种利用角点向心位移和位置的匹配方法。一个属于同一边界框的一对角应该共享该框的中心,至少直觉上来说这是合理的。由于我们可以从预测角的位置和向心偏移中解码出相应的中心,因此很容易比较一对角的中心是否足够靠近并接近由角对组成的边界框的中心,例如如图3c)所示。

基于以上观察,作者的方法如下,一旦从角热图和局部偏移特征图中获得角作者将相同类别的角进行分组,满足tlx < brxtly < bry的条件,构造预测边框。对于每个边界框bboxj作者将其得分设置为其角点得分的几何平均值,这些分数是通过在预测的角点热图上应用softmax得到的。然后,如图3所示,作者将每个边界框的中心区域定义为公式3,以比较解码中心和边界框中心的接近度。

 

b9f75041ef8ed45bc60a8491f78a4ac0.png

其角点坐标表示为:

8ef95ae66ea09f061038df56c28ade24.png

其中0<µ1表示中心区域的宽度和高度是边界框的宽度和高度的µ倍。通过向心偏移,可以分别解码左上角和右下角的中心(tlctx, tlcty)(brctx, brcty)

然后作者计算每个预测边界框的得分权重wj,这意味着回归的中心更接近,预测的box有更高的得分权重。

2647e2260b250401e7b20329b602b3f0.png

对于其他边界框,作者设置wj=0。最后,作者可以通过乘以分数权重对预测的边界框进行重新评分。

3.2. Cross-star Deformable Convolution

由于角点池的原因,feature map中出现了一些“cross stars”,如图4(a)所示。“十字星”的边界保持了对象的丰富上下文信息,因为角池使用maxsum操作将对象的位置信息扩展到沿“十字星”边界的角。要获取‘cross star’的上下文信息,不仅需要一个大的感受野,还需要学习‘cross star’的几何结构。基于上述直觉,作者提出了交叉星可变形卷积,这是一种新颖的卷积运算,用于增强拐角处的视觉特征。

作者提出的可变形的交叉星卷积如图2所示。

首先,作者将角池的特征映射输入到可变形的交叉星卷积模块中。为了学习可变形卷积的“十字星”的几何结构,使用对应目标的大小来显式地引导偏移场分支,因为“十字星”的形状与包围盒的形状有关。然而,以左上角为例,他们应该少注意“十字星”的左上角,因为有更多的无用信息在目标之外。

因此,者嵌入了一个导向偏移——从角落到中心的偏移到偏移场分支,如图3(b)所示,它包含了形状和方向信息。具体来说,偏移场是在三个卷积层上进行的。前两个卷积层将角池输出嵌入到feature map中,其Loss如下:

 


第二个卷积层将上述特征映射到偏移量字段,偏移量字段显式地包含上下文和几何信息。作者的cross-star deformable convolution通过将学习到的偏移场可视化,如图7c所示,可以有效地学习' cross star '的几何信息,提取' cross star '的边界信息。

d0e5402b8623ccfec3b7d94e303bd889.jpg


3.3. Instance Mask Head


为了得到实例分割掩码,作者将soft-nms前的检测结果作为region proposals,并利用全卷积神经网络对掩码进行预测。为了保证检测模块能够产生方案,作者首先对中心网进行了几个时代的预训练。选择得分最高的k个提案,然后在主干网的特征图上进行RoIAlign,得到它们的特征。作者将RoIAlign的尺寸设置为14×14,并预测得到一个28×28的掩模。在得到RoI的特性后,作者应用连续四个3×3层卷积,然后用一层反卷积upsample特性映射到28×28 mask地图。在训练过程中,作者对每个区域的方案应用交叉熵损失。

 

4实验和结果


COCO数据集比较:

d20e834986a8af8e73cb635cfe69d323.jpg

1a4fae728113c731c4ce236d6919e239.png

实例分割:

2beca6f588d0166ec5dfa0e4ba8e3807.jpg

a9bc669b39a613681890e3710c2ec6c7.png


相关文章
|
2月前
|
机器学习/深度学习 计算机视觉 知识图谱
【YOLOv8改进】MobileViT 更换主干网络: 轻量级、通用且适合移动设备的视觉变压器 (论文笔记+引入代码)
MobileViT是针对移动设备的轻量级视觉Transformer网络,结合CNN的局部特征、Transformer的全局注意力和ViT的表示学习。在ImageNet-1k上,它以600万参数实现78.4%的top-1准确率,超越MobileNetv3和DeiT。MobileViT不仅适用于图像分类,还在目标检测等任务中表现出色,且优化简单,代码已开源。YOLOv8引入了MobileViT块,整合卷积和Transformer结构,提升模型性能。更多详情可参考相关专栏和链接。
|
18天前
|
机器学习/深度学习 算法 计算机视觉
没有公式,不要代码,让你理解 RCNN:目标检测中的区域卷积神经网络
没有公式,不要代码,让你理解 RCNN:目标检测中的区域卷积神经网络
44 0
没有公式,不要代码,让你理解 RCNN:目标检测中的区域卷积神经网络
|
11天前
|
Web App开发 自然语言处理 算法
一文搞懂:【论文笔记】BINE:二分网络嵌入
一文搞懂:【论文笔记】BINE:二分网络嵌入
10 0
|
2月前
|
机器学习/深度学习 存储 测试技术
【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet :通过低成本操作获得更多特征 (论文笔记+引入代码).md
YOLO目标检测专栏探讨了卷积神经网络的创新改进,如Ghost模块,它通过低成本运算生成更多特征图,降低资源消耗,适用于嵌入式设备。GhostNet利用Ghost模块实现轻量级架构,性能超越MobileNetV3。此外,文章还介绍了SegNeXt,一个高效卷积注意力网络,提升语义分割性能,参数少但效果优于EfficientNet-L2。专栏提供YOLO相关基础解析、改进方法和实战案例。
|
2月前
|
机器学习/深度学习 数据可视化 计算机视觉
【YOLOv8改进】MCA:用于图像识别的深度卷积神经网络中的多维协作注意力 (论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO的创新改进和实战案例,包括多维协作注意力(MCA)机制,它通过三分支架构同时处理通道、高度和宽度注意力,提高CNN性能。MCA设计了自适应组合和门控机制,增强特征表示,且保持轻量化。该模块适用于各种CNN,实验证明其在图像识别任务上的优越性。此外,文章还展示了如何在YOLOv8中引入MCA层的代码实现和相关任务配置。
|
2月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进】 YOLOv8 更换骨干网络之GhostNetV2 长距离注意力机制增强廉价操作,构建更强端侧轻量型骨干 (论文笔记+引入代码)
该专栏聚焦YOLO目标检测的创新改进与实战,介绍了轻量级CNNs和注意力机制在移动设备上的应用。文章提出了一种名为GhostNetV2的新架构,结合了硬件友好的DFC注意力机制,强化了特征表达能力和全局信息捕获,同时保持低计算成本和高效推理。GhostNetV2在ImageNet上以167M FLOPs达到75.3%的top-1准确率,优于同类模型。创新点包括DFC注意力、模型结构优化和效率提升。源代码可在GitHub和MindSpore平台上找到。此外,还提到了YOLOv8的相关实现和任务配置。
|
1月前
|
网络协议 算法 Linux
【嵌入式软件工程师面经】Linux网络编程Socket
【嵌入式软件工程师面经】Linux网络编程Socket
46 1
|
4天前
|
网络协议 安全 Ubuntu
7 个有用的免费 Linux 网络隧道
【7月更文挑战第4天】
19 0
7 个有用的免费 Linux 网络隧道
|
16天前
|
安全 物联网 Linux
学习Linux对网络安全的重要性
**学习Linux对网络安全至关重要:** 1. 开源操作系统广泛应用于服务器、网络设备,掌握Linux是安全专家必备技能。 2. Linux内置安全特性,如最小权限和防火墙,加上丰富的安全工具,提供强大保障。 3. 可定制性允许灵活配置,满足安全需求,开源社区提供持续更新和教育资源。 4. 学习Linux能提升攻防能力,用于系统加固和渗透测试,适应跨平台安全场景。 5. 随着云计算和物联网发展,Linux在网络安全中的角色日益关键。
42 3
|
3天前
|
网络协议 Linux 开发工具
配置Linux固定IP地址,为什么要固定IP,因为他是通DHCP服务获取的,DHCP服务每次重启都会重新获取一次ip,VMware编辑中有一个虚拟网络编辑器
配置Linux固定IP地址,为什么要固定IP,因为他是通DHCP服务获取的,DHCP服务每次重启都会重新获取一次ip,VMware编辑中有一个虚拟网络编辑器