CenterNet原理解析

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: CenterNet原理解析

1120.jpg

CenterNet是第一个基于Anchor Free的目标检测模型。解决了基于Anchor Based的检测模型的一直存在的正负样本不均衡问题。

✨1 基本介绍

db96d430c05142fd926e72a56ae00c2e.png

测试时流程

  1. 输入一张图像。
  2. 进入backbone网络,这是一个encoder-decoder结构,然后通过级联角池和中心池分别输出两个角热图和一个中心关键点热图
  3. 利用一对检测到的角和相似的嵌入来检测潜在的边界框
  1. 利用检测到的中心关键点来确定最终的边界框

训练时在第2步后计算损失即可。

从整个过程来看,我们接下来需要重点总结几个问题

  1. backbone网络是什么样子的
  2. 训练集的两个角热图和中心关键点热图如何生成
  3. 损失如何计算
  4. 如何利用角和相似的嵌入检测潜在的边界框
  5. 如何利用中心关键点来确定最终的边界框

✨2 backbone及级联角池和中心池

🎃2.1 backbone

CenterNet可以完成目标检测,肢体识别和3D目标检测三种任务。

因此,papper提供了三种backbone,分别是Resnet-18, DLA-34和Hourglass-104

三种backbone的速度和准确率

backbone 速度/COCOAP 准确率/FPS
Resnet-18 28.1% 142
DLA-34 37.4% 52
Hourglass-104 45.1% 1.4

目标检测任务是以Resnet作为backbone中的encorde,反卷积模块Deconv作为decorder,可根据实际情况进行更换。

2.2 反卷积模块Deconv

2.3 级联角池

2.4 中心池

🌭2.5 算法流程

  1. 1. 图像预处理:图像长边缩放到512,短边补0,将该512x512x3的图像输入
  2. 2. 特征提取:图片经过resnet50提取特征得到feature1,尺寸为1x2048x16x16,对应encoder结构。之后,feature1经过反卷积模块Deconv,三次上采样得到feature2尺寸为1x64x128x128,对应decorder结构。
  3. 3.预测:将feature2分别送入三个分支进行预测。预测heatmap,尺寸为1x80x128x128(表示80个类别)。预测长宽尺寸为1x2x128x128(2表示长和宽)。预测中心点偏移量,尺寸为1x2x128x128(2表示x, y)。

✨3 heatmap的生成

🎈3.1 heatmap(1x80x128x128)

1x80x128x128,其中1代表每个类别取1个特征图,80代表种类数,128x128代表每个图像最终生成128x128像素的特征图。

若某个坐标处有物体目标的中心点,则在该坐标处产生一个用高斯圆表示的keypoint,如下图所示:

d93fc802306f4504adbea5c2b344a5c6.png

以上图为例,img其实生成了80个特征图。而上图的heatmap展示了类别为猫的特征图,因为img中有两只猫,所以在同一张heatmap上有两个keypoints。若还有一只狗,则类别为狗的特征图上也存在一个keypoints。

上面介绍了类别热图是什么,接下来总结如何利用训练集的真实label生成类别热度图

  1. 将目标的bbox缩放到128x128的尺度上,然后求box的中心点坐标并取整,设为point
  2. 根据目标bbox大小计算高斯圆的半径,设为R
  3. 在heatmap图上,以point为圆心,半径为R填充高斯函数计算值(point点处为最大值,沿着半径向外按高斯函数递减)。

🌭3.2 高斯函数填充

首先我们要明白为什么选择高斯填充,这里与一位博主总结的openpose中热度图的解释很类似。

假设

我们有一个13x13的热度图。如果位置(0.0)是中心点,则其中第一个值是1,其余为0。

eb7634d3809a4f0dbed81085702d166e.png

但是预测输出的是第二个值是1,其余是0。其实这很像一个非对即错的问题,完全正确不受损失,否则计算的损失一样。但是,这就有些绝对了,因为其实映射到真实图像中这个点非常接近,甚至看不出来,这明显不太合理。因此,采用高斯填充,point点处为最大值,沿着半径向外按高斯函数递减

🍕3.3 高斯圆半径的选择

实际情况中会取真实GT与预测框之间IOU=0.7,即下图中的overlap=0.7作为临界值,然后分别计算出三种情况的半径,取最小值作为高斯核的半径r

1ccc16923c444aae92ab10ce5be12178.png

注意,这里我们虽然是按照预测框和真实GT计算的r,但是最终我们用到的还是预测的关键点周围

d9b004f0a920468086365191a665b2a3.png

假设

第一图关键点是s,那么可以用左上角做内切得到的半径r在S周围画一个圈,里面用高斯函数填充

✨4 损失函数

我们一共预测了三个热度图,损失函数也对应着分成三部分

  1. heatmap的loss
  2. 目标长宽预测loss
  3. 目标中心点偏移值loss。

bb3a8285ccc746878a8ec80e50adb53c.png

其中heatmap的采用改进的focal loss。长宽预测的和目标中心点偏移都采用L1 Loss,而且加上了0.1的权重。

🍕4.1 heatmap的loss

ec2a8ac1019f4dbbb555792c7358e425.png

该loss function基于focal loss。其中α和β是超参数,用来均衡难易样本和正负样本。

N是图像的关键点数量(正样本个数),用于将所有的positive focal loss标准化为1。

求和符号的下标xyc表示所有heatmap上的所有坐标点(c表示目标类别,每个类别一张heatmap)。

==为预测值

为真实值。

与focal loss不同的是负样本的loss里面多了平衡参数, 目的是抑制0<<1的负样本的损失(heatmap高斯中心点附近那些点)。

🍔4.2 中心点偏移值损失

只对正样本的偏移值损失进行计算

e6be110e84c6423b964ad23baf08195d.png

表示预测的偏移值。

p为图片中目标中心点坐标

R为缩放尺度

为缩放后中心坐标的整数近似。

例如

p=(125, 125)R=(32)P/R=(3.906, 3.906)=(3, 3)=(0.906, 0.906)代表GT的着中心偏移值。

🎆4.3 长宽预测损失

0c2e746ea79f473faec65da472de5db3.png

为预测尺寸.

为真实尺寸。

5 ✨重叠物体难检测问题

在训练过程中,同一类别中的如果某些物体靠的比较近,那么其Ground Truth中心点在下采样时容易挤到一块,导致两个物体GT中心点重叠,使得网络将这两个物体当成一个物体来训练(因为只有一个中心点了)。而在模型预测阶段,如果两个同类物体在下采样后的中心点也重叠了,那么网络也只能检测出一个中心点。这个问题在网络FCOS中得到了解决。

6 ✨参考文章

https://www.cnblogs.com/silence-cho/p/13955766.html

https://zhuanlan.zhihu.com/p/360541947

相关文章
|
16天前
|
安全 算法 网络协议
解析:HTTPS通过SSL/TLS证书加密的原理与逻辑
HTTPS通过SSL/TLS证书加密,结合对称与非对称加密及数字证书验证实现安全通信。首先,服务器发送含公钥的数字证书,客户端验证其合法性后生成随机数并用公钥加密发送给服务器,双方据此生成相同的对称密钥。后续通信使用对称加密确保高效性和安全性。同时,数字证书验证服务器身份,防止中间人攻击;哈希算法和数字签名确保数据完整性,防止篡改。整个流程保障了身份认证、数据加密和完整性保护。
|
3月前
|
存储 缓存 算法
HashMap深度解析:从原理到实战
HashMap,作为Java集合框架中的一个核心组件,以其高效的键值对存储和检索机制,在软件开发中扮演着举足轻重的角色。作为一名资深的AI工程师,深入理解HashMap的原理、历史、业务场景以及实战应用,对于提升数据处理和算法实现的效率至关重要。本文将通过手绘结构图、流程图,结合Java代码示例,全方位解析HashMap,帮助读者从理论到实践全面掌握这一关键技术。
122 14
|
4月前
|
运维 持续交付 云计算
深入解析云计算中的微服务架构:原理、优势与实践
深入解析云计算中的微服务架构:原理、优势与实践
164 3
|
8天前
|
机器学习/深度学习 数据可视化 PyTorch
深入解析图神经网络注意力机制:数学原理与可视化实现
本文深入解析了图神经网络(GNNs)中自注意力机制的内部运作原理,通过可视化和数学推导揭示其工作机制。文章采用“位置-转移图”概念框架,并使用NumPy实现代码示例,逐步拆解自注意力层的计算过程。文中详细展示了从节点特征矩阵、邻接矩阵到生成注意力权重的具体步骤,并通过四个类(GAL1至GAL4)模拟了整个计算流程。最终,结合实际PyTorch Geometric库中的代码,对比分析了核心逻辑,为理解GNN自注意力机制提供了清晰的学习路径。
157 7
深入解析图神经网络注意力机制:数学原理与可视化实现
|
9天前
|
机器学习/深度学习 缓存 自然语言处理
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
Tiktokenizer 是一款现代分词工具,旨在高效、智能地将文本转换为机器可处理的离散单元(token)。它不仅超越了传统的空格分割和正则表达式匹配方法,还结合了上下文感知能力,适应复杂语言结构。Tiktokenizer 的核心特性包括自适应 token 分割、高效编码能力和出色的可扩展性,使其适用于从聊天机器人到大规模文本分析等多种应用场景。通过模块化设计,Tiktokenizer 确保了代码的可重用性和维护性,并在分词精度、处理效率和灵活性方面表现出色。此外,它支持多语言处理、表情符号识别和领域特定文本处理,能够应对各种复杂的文本输入需求。
49 6
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
|
1月前
|
机器学习/深度学习 算法 数据挖掘
解析静态代理IP改善游戏体验的原理
静态代理IP通过提高网络稳定性和降低延迟,优化游戏体验。具体表现在加快游戏网络速度、实时玩家数据分析、优化游戏设计、简化更新流程、维护网络稳定性、提高连接可靠性、支持地区特性及提升访问速度等方面,确保更流畅、高效的游戏体验。
76 22
解析静态代理IP改善游戏体验的原理
|
1月前
|
编解码 缓存 Prometheus
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
本期内容为「ximagine」频道《显示器测试流程》的规范及标准,我们主要使用Calman、DisplayCAL、i1Profiler等软件及CA410、Spyder X、i1Pro 2等设备,是我们目前制作内容数据的重要来源,我们深知所做的仍是比较表面的活儿,和工程师、科研人员相比有着不小的差距,测试并不复杂,但是相当繁琐,收集整理测试无不花费大量时间精力,内容不完善或者有错误的地方,希望大佬指出我们好改进!
97 16
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
|
20天前
|
Java 数据库 开发者
详细介绍SpringBoot启动流程及配置类解析原理
通过对 Spring Boot 启动流程及配置类解析原理的深入分析,我们可以看到 Spring Boot 在启动时的灵活性和可扩展性。理解这些机制不仅有助于开发者更好地使用 Spring Boot 进行应用开发,还能够在面对问题时,迅速定位和解决问题。希望本文能为您在 Spring Boot 开发过程中提供有效的指导和帮助。
69 12
|
17天前
|
开发框架 监控 JavaScript
解锁鸿蒙装饰器:应用、原理与优势全解析
ArkTS提供了多维度的状态管理机制。在UI开发框架中,与UI相关联的数据可以在组件内使用,也可以在不同组件层级间传递,比如父子组件之间、爷孙组件之间,还可以在应用全局范围内传递或跨设备传递。
35 2
|
2月前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。

热门文章

最新文章

推荐镜像

更多