1摘要
雷达是唯一能够在所有天气条件下以可承受的成本提供可靠感知能力的传感器,已被广泛作为现代高级驾驶员辅助系统(ADAS)和自动驾驶系统中相机和激光雷达的关键补充。最近最先进的研究表明,雷达和激光雷达的融合可以在恶劣天气(如雾)下实现鲁棒检测。然而,这些方法仍然存在box估计精度低的问题。本文提出了一种用于anchor box-free目标检测系统的BEV融合学习方法,该方法利用雷达range-azimuth heatmap和激光雷达点云的特征来估计可能的目标。设计了不同的标签分配策略,以促进前景或背景anchor point的分类与相应的边界框回归之间的一致性。此外,通过采用新颖的交互式transformer模块,可以进一步提高所提出的目标检测器的性能。论文使用最近发布的Oxford Radar RobotCar(ORR)数据集展示了所提出方法的优越性能。实验表明,RaLiBEV的精度大大优于其他最先进的方法。
本文的主要贡献如下:
- 提出了一种基于雷达和激光雷达BEV融合的anchor box free目标检测器RaLiBEV。RaLiBEV可以通过融合从雷达range-azimuth heatmap和LiDAR点云提取的特征,在BEV中生成精确的2D边界框;
- 提出了一种新的标签分配策略,即基于Gaussian Area-based Consistent Heatmap和IoU Cost Positive Sample Assignment(GACHIPS),以解决anchor box free目标检测器中关键点分类与相应的box回归任务之间的不一致性;
- 提出了几个基于交互式transformer的改进融合模块,通过相互交互来正确融合雷达和激光雷达特征图,从而显著提高了性能,尤其是在精确的目标边界框估计方面;
- 如图1的子图“RaLiBEV LiDAR & radar(foggy)”所示,与子图“Ground-truth LiDAR & radar(foggy)”中所示的GT边界框相比,上述目标检测器即使在恶劣天气下也能实现相当准确的检测性能,这在流行的ORR数据集中以较大的优势超过了最先进的基于雷达和LiDAR融合的目标检测器[35]。
2相关工作
基于激光雷达的目标检测
LiDAR广泛应用于目标检测和实例分割等任务。基于LiDAR的目标检测方法可分为四类:基于点云的、基于pillar的、基于体素的和基于图的。基于点云的方法基于多层感知(MLP)神经网络架构,该架构使用简单的线性层从每个点云提取特征[12][13]。基于pillar的方法将非结构化点云转换为鸟瞰(BEV)下的pillar伪图像,然后使用2D-CNN对其进行处理[15]。基于体素的方法使用3D-CNN块来提高小目标检测或某些其他场景的性能。因此,它将点云构建为三维体素形状数据,然后实现3D-CNN[14]。除了上面的二维和三维栅格单独视图方法之外,一些作品还将这些视图表达组合在一起。
MVFuseNet[18] concat前视图和BEV特征,以增强特征提取。此外,一些工作侧重于结合点云和栅格特征。PDV[19]利用点云密度感知采样来提取具有不同点云数的不同体素中的点云特征,然后进行网格化CNN以获得更好的特征提取。基于图的方法使用图数据格式来描述点云。点云设置为图的顶点,点云的关系设置为边。然后使用GNN的线性变换和信息交换过程[22]。由于对GNN的研究还没有得到很好的发展,这种类型的网络仍然需要进一步探索。
在LiDAR实例分割中,SGPN[20]利用逐点云数据格式实现3D实例分割。HAIS[21]使用分层方案首先聚合点云,然后进行分割。
基于雷达的目标检测
基于雷达的目标检测通常使用基于点云的方法来处理,可以分为传统的和最新的基于深度学习的方法。在传统方法中,对雷达点云实施空间聚类方法,以从背景中明确目标点云,如DBSCAN[23]。同时,使用基于卡尔曼滤波的目标跟踪算法抑制误报。这类工作的缺点是,由于点云的稀疏性,它无法给出目标的几何信息。在基于深度学习的方法中,类似[24][25][26]的示例工作与基于LiDAR的点云目标检测非常相似。
基于雷达和激光雷达融合的目标检测
因为雷达和激光雷达都给出距离探测信息,所以有两种方法来融合来自每个传感器的信息。一种类型的融合逻辑是目标级融合。它试图获取激光雷达目标和雷达目标之间最合理的关联匹配对,然后应用卡尔曼滤波器更新每个目标的位置。最大的问题是它的性能受到每个检测器性能的影响。另一种类型的融合逻辑是原始数据级融合。与之前的方法不同,它使用神经网络直接处理来自两个传感器的原始数据。MVDNet[28]修改了faster-RCNN网络框架,以接受来自雷达range-azimuth heatmap和激光雷达点云的两个分支输入数据源。在获取两个分支特征图之后,它引入了一个注意力模块,以更好地将特征与可学习权重融合。从MVDNet的研究延伸,ST-MVDNet[29]关注传感器故障问题。设计了一个师生互学模式。从MVDNet开始,他们训练模型的第一阶段。然后将模型参数从学生模型复制到教师模型。在第二阶段,他们使用教师模型预测来计算损失并回归学生模型参数。然后使用EMA来更新教师模型。
3论文方法
Anchor Box Free Object Detection with Fusion of Radar and LiDAR in BEV
遵循传感器融合的思想,在BEV表示下融合每个传感器的特征是简单的。因此,从YOLOv4[30]主干开始,提出了一种anchor box-free雷达和LiDAR BEV目标探测器(RaLiBEV)。如图2所示,相应的激光雷达点云和雷达range-azimuth heatmap一起用作输入数据。然后,聚合的特征被馈送到YOLOV4骨干网以进行进一步处理。最后,采用多尺度anchor box free检测头对2D BEV旋转边界框检测结果进行解码。
对于雷达数据,range-azimuth heatmap的强度表示BEV空间下物体存在的可能性。当物体存在时,heatmap的能量将大于空区域的能量。通过应用双线性插值将雷达数据从极坐标转换为笛卡尔坐标,因此数据的结构形状最终显示为[Wr,Hr,Cr]。对于LiDAR数据,由于点云是无序的3D点集,因此需要在后续操作之前对数据进行结构化。因此,应用PointPillar[15]的方法将输入LiDAR数据形成BEV下的固定形状[Wl,Hl,Cl]。
在预处理之后,在每个分支上应用N个卷积层来提取特征,而不进行下采样。然后,两个分支数据与一个交互式transformer融合,并馈送到YOLOv4主干,以进行进一步的特征提取。在末端添加多尺度anchor-free测头以解码检测结果。
遵循anchor-free检测技术,应首先指定特征图的锚点,然后开始基于这些位置的回归。因此,首先监督heatmap。2D GT框生成高斯分布图,作为每个输出头的监督。该方法可由等式(1)描述:
标签分配策略
在创建GT高斯图之后,使用focal loss[34]以回归预测的heatmap。首先应考虑标签分配策略,以缓解前景和背景分类和回归之间的不一致性。通常,可以应用三种标签分配策略,包括可以通过匈牙利算法(例如,对于DETR)解决的二分匹配、multi-positive标签分配和single-positive标签分配。总损失可描述为等式(3):
回归损失是L1损失函数。
1) 二分匹配标签分配:典型的二分匹配标签分配基于匈牙利算法。这种基于集合的标签分配在预测和GT真值框之间建立IoU的成本矩阵,其中预测框从预定义位置解码。然后通过匈牙利算法找到最佳匹配的正样本。传统的二分匹配过程基于anchor[31],而DETR利用目标查询将这种匹配艺术改变为完全端到端的风格。使用匈牙利算法,DETR[33]直接计算预定义目标查询和GT目标框之间的损失。然后,在训练之后,可以将收敛的查询直接解码到最终预测框中,而无需NMS。然而,在本文的设计中,查询被设置为与雷达和激光雷达特征图相同的大尺寸,这对于匈牙利匹配来说太耗时了。因此,放弃了这一策略。
2) Multi-Positives标签分配:遵循多个positive锚点可以缓解anchor-free检测架构中的正负样本不平衡问题的思想,设计了一种基于高斯区域的Multi-Positives标签分配。基于前述创建的GT高斯热图G,使用静态阈值来提取特定区域作为positive anchor。然后将分类和回归一起应用于每个positive anchor。如图3“Multi-positive Label Assignment”所示,所有这些绿色和红色重叠的点都是选定的正样本。分类和回归都在在相同的关键点上。它们都位于GT真实高斯分布橙色区域。
然而,更多的正样本可能会加剧前景和背景分类与回归之间的不一致性,因为multi-positive策略可以帮助目标存在分类,但在分类和回归之间引入了更大的差距。这个缺点将在论文的实验结果中显示出来。
3)Single Positive标签分配:由于多个正标签作为标签引入了扩大的不一致性问题,因此考虑了single-positive标签分配策略。受CenterPoint[17]的启发,以下设计了四种类型的single-positive标签分配策略:
- 第一个设计是基于direct index的正样本(DIPS)分配,这是论文的基线方法。DIPS将标签中心位置视为正锚点,然后对这些锚点应用分类和回归。如图3“DIPS Label Assignment”所示,只有每个GT高斯分布区域中的中心锚点被选为正样本。然后,分类和回归都基于相同的关键点。
- 第二种设计是Gaussian area-based heatmap cost positive sample (GAHPS) assignment(GAHPS)分配。如图3“GAHIPS Label Assignment”所示,分类和回归基于不同的关键锚点。首先,预测热图受模型影响,用GT高斯热图计算分类损失。橙色椭圆中的绿点表示分类关键锚点。在计算热图损失之后,选择红色预测热图的峰值锚点作为回归正锚点。该策略确保在整个训练过程中,只有最佳分类位置有助于回归的损失结果。
- 第三种设计是Gaussian area-based heatmap and IoU cost positive sample assignment(GAHIPS)分配。这种方法与前一种不同。如图3“GAHIPS Label Assignment”所示,与GAHPS相同,GAHIPS首先在绿色关键锚点应用分类损失。然后GAHIPS推断预测热图与GAHPS相同。与GAHPS不同,GAHIPS回归正样本点不再仅仅是预测热图的峰值位置,而是峰值加上预测的最佳IoU框所在的位置。因此,该策略试图让回归参与标签分配,以便分类和回归同时作用于损失,以指导模型训练。
- 第四种设计是Gaussian area-based consistent heatmap and IoU cost positive sample assignment(GACHIPS)分配,这是第三种策略的分歧。如图3“GACHIPS Label Assignment”所示。
基于上述分配结果,损失函数如下所示:
Interactive Transformer for Fusion of Radar and LiDAR in BEV
融合两个传感器数据的最简单方法是将每个传感器的特征concat在一起。然而,这种方法的性能有限,因为它不能很好地衡量特征。为了更合理地融合两个分支数据,论文设计了一个基于交互式transformer的BEV融合模块[32]。如图4所示,声明了两种不同的融合逻辑。图4(a)描述了一种直接交互式BEV融合,该融合利用一个传感器分支特征图作为查询,另一个作为key和value。通过key和value的矩阵相乘来计算权重矩阵,然后将其输入到softmax中进行归一化。这是交互注意力过程。最后,生成权重和值的点积,其中value是concat的特征图。上述过程可描述为如下等式(7):
图4(b)中的第二个与(a)有相似的想法,但在查询定义中拥有不同的部分。这里论文定义了一个随机初始化的可可学习查询,它与输入key特征图共享相同的大小。在这里,计算可学习查询与concat雷达和激光雷达特征图之间的交互注意力,这被视为key。数学表达式可以描述为等式(8):
4实现和结果
数据集和评价指标
论文选择在ORR数据集上验证的想法[35]。该数据集提供了一个同步的激光雷达点云、雷达range azimuth heatmap、汽车运动位姿参数等。激光雷达点云由两个Velodyne HDL-32E激光雷达捕捉,每个激光雷达设计用于覆盖汽车的一侧。在汽车顶部有一个NavTech CTS350-X雷达,它以机械扫描的方式具有360°视野。雷达数据的角度分辨率为每400ms 0.9°,而激光雷达数据的角分辨率为每20ms 0.33°。
LiDAR数据和雷达数据之间的同步问题以及标注生成通过插值和自车位姿参数来解决[28]。具体而言,LiDAR点云和雷达range-azimuth heatmap之间的未对准由位姿参数补偿。利用时间戳作为参考,[28]计算激光雷达点云和雷达heatmap之间的运动,然后将每个点云转移到雷达坐标。标注边界框也由[28]每20帧创建一次,其余帧的标注也通过插值生成。对于雾场景中的测试,MVDNet使用DEF方法重新定位LiDAR点云[27]。根据DEF中的雾模型,MVDNet将雾概率设置为0.5,以重新计算每个点云的最大可见范围。如果当前点云范围大于最大雾范围,则该点云将被设置为丢失或重新定位为散射点。对MVDNet中的数据执行相同的操作后,将使用2D标签边界框作为监督。8862个帧中的相应雷达和激光雷达数据被分成7071帧用于训练,1791帧用于测试。
评价指标Precision和Recall。
实验结果和分析
1) 标签分配策略的消融实验:在牛津雷达RobotCar数据集上进行了实验,以评估所提出的策略的有效性。选择IoU为0.5、0.65和0.8时的AP评估指标,以证明性能的变化。表II给出了不同标签分配策略和交互式transformer融合的实验结果。
2) 基于交互式Transformer的BEV融合方法消融实验:为了说明基于交互式Transformer BEV融合的有效性,将融合模块插入到具有DIPSA标签分配的基本网络框架中。表II还列出了Transformer的结果。
3) 不同天气条件下与最先进方法的性能比较:根据MVDNet[28],本文测试了不同天气下的模型性能。模拟雾状激光雷达数据由MVDNet提供的代码生成。该实验设置为仅使用清晰和清晰+雾状激光雷达和雷达数据进行训练,然后在清晰和雾状数据下进行测试。选择了两个峰值性能模型来证明其在此条件下的性能。一种是具有GAPIPS的RaLiBEV,另一种是带有DQMITBF的RaLiBEV。GAPHIPS训练在只有清晰数据的情况下的性能和雾场景下的测试优于DQMITBF。数据增强后的水平比较模型的性能约为10%。雾试验下,GAPIPS从84.6%、82.4%和73.8%增加到97.8%、96.7%和93.7%。这一结果超过了SOTA ST-MVDNet在晴雾训练和雾测试场景下的20%以上。
图5显示了测试数据集帧3332和4103的GT、MVDNet、RaLiBEV(清晰)和RaLiBEV(模糊)结果。MVDNet在清晰场景下进行测试。标签框用黄色表示,每个模型的预测框用红色表示。所有框都使用绿色线条来说明目标的标题。每幅图片都与带有白色点的激光雷达和带有伪彩色JET和边界框的雷达重叠。很容易发现,MVDNet的估计在顶行图中有3个未命中检测和4个具有反向航向角的预测框,而在底行图中则有1个误捡和2个反向预测框。RaLiBEV(清晰)显示无错误。然而,雾状结果在两个子图中给出了1个错误警报,但仍然没有给出错误的航向角。
5结论
论文引入了RaLiBEV,以便在恶劣的雾天条件下进行车辆检测。RaLiBEV采用了比现有SOTA MVDNet和ST-MVDNet更好的激光雷达和雷达融合目标检测方法。为了评估RaLiBEV,提出了新的标签分配策略和基于Transformer的融合策略。实验结果表明,RaLiBEV在晴朗和雾天条件下都比现有方法实现了更高的检测精度。创新策略为基础模型带来更多改进。未来,论文将优化本文提出的方法的时间复杂性,并将该模型扩展到多模态融合版本。
6参考
[1] RaLiBEV: Radar and LiDAR BEV Fusion Learning for Anchor Box Free Object Detection System
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)