【论文解读】单目3D目标检测 CUPNet（ICCV 2021）-阿里云开发者社区

本文分享单目3D目标检测，CUPNet 模型的论文解读，了解它的设计思路，论文核心观点，模型结构，以及效果和性能。

一、CUPNet简介

CUPNet是基于几何约束和回归方式输出3D框信息，在不依赖dcn的情况下获得了较好的性能。

它也是一款两阶段的单目3d检测器，先回归2D框信息，在ROI区域进一步提取特征，生成3D框信息。

开源地址：https://github.com/SuperMHP/GUPNet

论文地址：Geometry Uncertainty Projection Network for Monocular 3D Object Detection

二、论文核心观点

论文核心观点，主要包括为两点：

1、物体高度估计误差，对深度计算有着较大的影响。
2、模型训练的稳定性。在模型训练初期，物体高度的预测往往存在较大偏差，也因此导致了深度估算偏差较大。较大误差往往导致网络训练困难，从而影响整体网络性能。
3、推断可靠性问题。如果物体的高度预测存在较大偏差，相应计算出的深度值也会存在较大误差。

三、模型框架

CUPNet是一个两阶段的框架，实现单目3d检测的。模型结构如下：

Backbone：DLA34

Neck：DLAUp

第一部分 2D 检测：3个分支

分支一通过输出heatmap，预测所有类别的中心点（默认类别为3）。
分支二预测的2D框中心点的偏移。
分支三预测2D框的size。

第二部分 3D 检测：4个分支

分支一预测偏航角。
分支二预测3D框的size。
分支三预测中心点的深度值，和和其不确定性（深度学习偏差）。
分支四预测2D框中心点与真实的3D投影坐标之间的偏移。

模型结构如下图所示：（基于CenterNet的2D检测+ROI特征提取+基础3D检测头）

整体的模型结构，可分为4步：

输入图像，经过主干网络提取特征。
基于CenterNet的2D框预测部分，用于输出热力图，信息包括：2D中心点、偏移量、2D框的尺寸。
提取出ROI的特征。
利用所提取的ROI特征，输入到不同的网络头，以获得物体3D框信息，包括：偏转角度、尺寸、深度值、物体3d框中心在图像投影点的偏移量。

在第四步时，首先估计出3D框除了“深度值”以外的所有参数，然后2D框与3D框的高度将被输入到GUP模块中，提取出最终的depth。

在输入端，图像将缩放到384×1280的大小，然后经过DLA的backbone获得96×320，通道数为64的特征图。随后经过三个简单的网络头输出2d信息

2D 检测3个分支结构代码：

self.heatmap = nn.Sequential(nn.Conv2d(channels[self.first_level], self.head_conv, kernel_size=3, padding=1, bias=True),
                            nn.ReLU(inplace=True),
                            nn.Conv2d(self.head_conv, 3, kernel_size=1, stride=1, padding=0, bias=True))
self.offset_2d = nn.Sequential(nn.Conv2d(channels[self.first_level], self.head_conv, kernel_size=3, padding=1, bias=True),
                            nn.ReLU(inplace=True),
                            nn.Conv2d(self.head_conv, 2, kernel_size=1, stride=1, padding=0, bias=True))
self.size_2d = nn.Sequential(nn.Conv2d(channels[self.first_level], self.head_conv, kernel_size=3, padding=1, bias=True),
                            nn.ReLU(inplace=True),
                            nn.Conv2d(self.head_conv, 2, kernel_size=1, stride=1, padding=0, bias=True))

3D 检测4个分支结构代码：

self.depth = nn.Sequential(nn.Conv2d(channels[self.first_level]+2+self.cls_num, self.head_conv, kernel_size=3, padding=1, bias=True),
                                nn.BatchNorm2d(self.head_conv),
                                nn.ReLU(inplace=True),nn.AdaptiveAvgPool2d(1),
                                nn.Conv2d(self.head_conv, 2, kernel_size=1, stride=1, padding=0, bias=True))
self.offset_3d = nn.Sequential(nn.Conv2d(channels[self.first_level]+2+self.cls_num, self.head_conv, kernel_size=3, padding=1, bias=True),
                                nn.BatchNorm2d(self.head_conv),
                                nn.ReLU(inplace=True),nn.AdaptiveAvgPool2d(1),
                                nn.Conv2d(self.head_conv, 2, kernel_size=1, stride=1, padding=0, bias=True))
self.size_3d = nn.Sequential(nn.Conv2d(channels[self.first_level]+2+self.cls_num, self.head_conv, kernel_size=3, padding=1, bias=True),
                                nn.BatchNorm2d(self.head_conv),
                                nn.ReLU(inplace=True),nn.AdaptiveAvgPool2d(1),
                                nn.Conv2d(self.head_conv, 4, kernel_size=1, stride=1, padding=0, bias=True))
self.heading = nn.Sequential(nn.Conv2d(channels[self.first_level]+2+self.cls_num, self.head_conv, kernel_size=3, padding=1, bias=True),
                                nn.BatchNorm2d(self.head_conv),
                                nn.ReLU(inplace=True),nn.AdaptiveAvgPool2d(1),
                                nn.Conv2d(self.head_conv, 24, kernel_size=1, stride=1, padding=0, bias=True))

四、损失函数

CUPNet 的损失由7部分组成，

2D 框检测损失：3部分

分支一通过输出heatmap，预测所有类别的中心点；使用 Focal Loss 函数。
分支二预测的2D框中心点的偏移；使用 L1 Loss 函数。
分支三预测2D框的size；使用 L1 Loss 函数。

3D Detection损失：4部分

分支一预测偏航角。类别使用交叉熵损失，偏航角使用L1 Loss。
分支二预测3D框的size。长和宽为L1 Loss，权重占2/3，3D 高使用laplacian_aleatoric_uncertainty_loss() 函数，权重占1/3。
分支三预测中心点的深度值，和和其不确定性；使用 laplacian_aleatoric_uncertainty_loss() 函数。
分支四预测2D框中心点与真实的3D投影坐标之间的偏移；使用 L1 Loss 函数。