【论文解读】单目3D目标检测 MonoFlex（CVPR 2021）-阿里云开发者社区

【论文解读】单目3D目标检测 MonoFlex（CVPR 2021）

2023-11-15 716

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

简介： 本文分享单目3D目标检测，MonoFlex 模型的论文解读，了解它的设计思路，论文核心观点，模型结构，以及效果和性能。

本文分享单目3D目标检测，MonoFlex 模型的论文解读，了解它的设计思路，论文核心观点，模型结构，以及效果和性能。

一、MonoFlex 简介

MonoFlex是一种端到端、单阶段的单目3D目标检测方法，它基于CenterNet框架结合几何约束，回归方式输出3D框信息。

它优化了被截断物体的3D检测，同时优化了中心点的深度估计，检测速度也比较快。

开源地址：https://github.com/zhangyp15/MonoFlex

论文地址：Objects are Different: Flexible Monocular 3D Object Detection

二、论文核心观点

论文核心观点，主要有3点组成：

1、有截断的物体和正常的物体要分开处理，提出了截断目标预测的解耦方法。主要体现在：截断的中心点选取差异。
2、深度估计中同时考虑：关键点估计的几何深度、直接回归深度，然后两者做加权结合。
3、边缘特征提取和融合，单独把边沿的像素拿出来做注意力特征提取，提高offset和heat map的精度。

三、模型框架

MonoFlex是一个单阶段的框架，实现单目3d检测的模型结构如下：

Backbone：DLA34

Neck：FPN

Head：由四部分组成

第一部分，预测2D框中心点。

通过输出heatmap，预测所有类别的中心点（默认类别为3）。
这部分加入了Edge Fusion，增强边缘的中心点预测。

第二部分，预测中心点的偏差。

对于正常物体，预测2D框中心点与3D框投影坐标之间的偏差。
对于截断物体，预测2D框中心，和3D框中心投影点与图像边沿之间交点的偏差。（下面详细讲）

第三部分，预测常规的信息。

2D框宽高。
3D方向。
3D尺寸。

第四部分，预测深度信息。

深度信息1：模型直接归回的深度信息。
深度信息2：通过关键点和几何约束，计算出来的深度信息。估计一共10个关键点：3D框8个顶点和上框面、下框面在图片中的投影到x_r的offset；然后通过相机模型计算深度。
深度信息融合，把几何深度、直接回归深度，然后两者做加权结合。

模型结构如下图所示：

补充一下Edge Fusion模块：

为了提高截断物体的中心点检测，提出了边缘特征提取和融合，单独把边沿的像素拿出来做注意力特征提取，提高offset和heat map的精度。

模块首先提取特征映射的四个边界，将其连接到边缘特征向量中。
然后由两个1*1 conv处理，以学习截断对象的唯一特征。
最后，将处理的向量重新映射到四个边界，并添加到输入特征图。

在热图预测中，边缘特征可以专门用于预测外部对象的边缘热图，从而使内部对象的位置不被混淆。

四、损失函数

MonoFlex 的损失由6部分组成：

2D框中心点损失，通过输出heatmap，预测所有类别的中心点；使用 Focal Loss 函数。
2D框尺寸损失，使用 L1 Loss 函数。
3D框中心点与2D框中心点的偏差损失，使用 L1 Loss 函数。
3D朝向角损失，使用MultiBin 函数。
3D尺寸损失，使用 L1 Loss 函数。
深度信息损失，包括直接回归损失和关键点损失。

补充一下heatmap的损失，它是采用带惩罚因子的Facal Loss。

偏差损失计算公式：

关键带你采用L1 loss进行回归：

五、核心观点——有截断的物体和正常的物体要分开处理

在预测3D框中心点的偏差中，早期是使用2D框中心，作为3D框在图像的中心；直接预测2D框中心点的偏差。

现有的大部分单目3D检测方法，是预测2D框中心点与3D框投影坐标之间的偏差。原理可以看MonoDLE

作者做了实验，分析截断的物体和正常的物体的中心点偏差分布。根据物体的投影3D中心在图像内部还是外部，将物体分为两组，内部对象（Inside Objects）和外部对象（Outside Objects）在从2D中心到投影3D中心过程中，呈现完全不同的偏差分布。

考虑到两组偏移量相差大，联合学习会产生长尾偏移，因此作者将内外对象的表示和偏移学习进行解耦。

于是在MonoFlex提出了：有截断的物体和正常的物体要分开处理。主要体现在：截断的中心点选取差异。

下面分析中心点选取的差异：

对于正常物体，预测2D框中心点与3D框投影坐标之间的偏差。
对于截断物体，预测2D框中心，和3D框中心投影点与图像边沿之间交点的偏差。

下面图中，Xb是2D框中心、Xc是3D框投影在图像中的中心、Xl是预测2D框中心和3D框中心投影点，在图像边沿之间交点。

正常物体，预测3D框中心偏差时，使用Xc与Xb之间的距离作为标签。即：δc=Xc−Xb。

截断物体，预测3D框中心偏差时，使用Xl与Xb之间的距离作为标签。

上图右侧看一下截断物体，中心点在图像边缘的heatmap情况。

为了提高截断物体的中心点检测，提出了边缘特征提取和融合，单独把边沿的像素拿出来做注意力特征提取，提高offset和heat map的精度。

下面是对比图像边沿交点Xl（浅蓝色），与2D框中心Xb（绿色）

下面是是对比实验：

六、核心观点——深度估计同时考虑几何深度和直接回归深度

在深度估计中，同时考虑关键点估计的几何深度和直接回归深度，然后两者做加权结合。

【一、直接回归深度】

【二、关键点估计的几何深度】

采取10个关键点：8个顶点+1个顶面中心+1个底面中心。通过10个关键点和相机投影模型，可以计算出深度信息z。

使用目标的2D高度和3D高度之间的相对比例来计算目标深度，投影公式：

编辑

从高度求解深度不仅与orientation估计无关，而且受dimension估计误差的影响较小。

即：3D 边界框支撑线的深度可以通过对象高度和线的像素高度来计算。将十个关键点分为三组，每组都可以独立产生中心深度。

【三、深度信息加权合并】

利用M+1个深度估计值和不确定性，进行加权求解平均值：

该方式可以为那些高置信度的估计器分配更高的权重，同时对潜在的不准确具有鲁棒性。

七、实验对比与模型效果

在KITTI 验证/测试集上的实验，选择Car类别。模型精度高，实时性好。

模型检测效果：

在截断物体的检测效果：

分享完成~

【论文解读】单目3D目标检测 MonoFlex（CVPR 2021）

一、MonoFlex 简介

二、论文核心观点

三、模型框架

四、损失函数

五、核心观点——有截断的物体和正常的物体要分开处理

六、核心观点——深度估计同时考虑几何深度和直接回归深度

七、实验对比与模型效果

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书