毫米波雷达在多模态视觉任务上的近期工作及简析(上)

简介: 在近些年,2D检测任务在自动驾驶的热度递减,取而代之的是3D任务,毕竟现在的实际场景一直多是基于3D场景。但是在3D检测或者分割等任务中,雷达赋予了一个不一样的角色,在之前FOV视角中,毫米波点云大多为了与FOV特征融合,都是通过投影这一种方法,而放到3D场景中,分为两个流派:一个是点云流派:由于lidar和radar具有天然的相似性(当然是处理后的点云),自然就有lidar的相关角色赋予毫米波雷达,相应的,毫米波的角色从FOV到了BEV,它的下游任务,也从辅助为主到BEV下的分割、深度估计、生成密集点云等。


前情回顾



自动驾驶中雷达与相机融合的目标检测工作多模态目标检测:


  • 在之前,我已经有介绍过毫米波雷达在2D视觉任务上的一些经典网络:总结概括而言,其本质上都是对视觉任务的一种提升和辅助,主要的工作在于如何较好地在FOV视角中融合两种模态,其中不乏有concate\add\product两个模态的特征,或者使用radar对视觉局部特征增强,其中比较知名的工作CRFNet经常用来作为baseline,其并没有对毫米波这个模态做特殊的处理,仅是作为视觉特征的补充融入到传统的2D检测pipeline中,但是其消融实验提出了许多值的考虑的优化方向:包括噪声滤除、BlackIn这两个,一个代表了对于毫米波这类有较多噪声的数据进行“理想化”的噪声过滤,结果提升了接近10个点。二是通过BlackIn对于弱模态-毫米波点云加大学习权重(通过对训练时图像的缺失)来提高网络对于高噪声弱模态的拟合能力也能提点。

  • 在近些年,2D检测任务在自动驾驶的热度递减,取而代之的是3D任务,毕竟现在的实际场景一直多是基于3D场景。但是在3D检测或者分割等任务中,雷达赋予了一个不一样的角色,在之前FOV视角中,毫米波点云大多为了与FOV特征融合,都是通过投影这一种方法,而放到3D场景中,分为两个流派:一个是点云流派:由于lidar和radar具有天然的相似性(当然是处理后的点云),自然就有lidar的相关角色赋予毫米波雷达,相应的,毫米波的角色从FOV到了BEV,它的下游任务,也从辅助为主到BEV下的分割、深度估计、生成密集点云等。另一个Range-Doppler流派:投入到毫米波雷达原始数据中去探求毫米波特有的处理方式,并且取得了不错的成果。
  • 这也是我这篇文章的重点,文章的主要工作放在毫米波角色的转换中,从3D检测、深度估计、GAN(非重点),分割(非重点)几个方面列举我看到的一些工作并做简单介绍和总结,同时对毫米波算法的发展提出自己的一些拙见,毫米波雷达相关领域深邃奥妙,仅通过几篇文章认识它无疑是管中窥豹,由于个人能力有限,所以后面还会继续以各个子章节细化,组成系列文章。

介绍的工作都比较冷门,很少有源码开放,因此对一些细节分析可能并不到位,欢迎大家在评论区讨论,提出自己的宝贵意见,指正我的一些偏见。


一、3D Detection



1.1 GCN:图卷积用于毫米波目标检测


1.1.1 GCN用于毫米波点云


  • Radar-PointGNN: Graph Based Object Recognition for Unstructured Radar Point-cloud Data(**2021 IEEE Radar Conference)**之前我发过一篇文章:用于毫米波雷达的GNN—https://zhuanlan.zhihu.com/p/549641548

1.1.2 GCN用于原始毫米波信号


  • Graph Convolutional Networks for 3D Object Detection on Radar Data (2021 ICCVW)建议在阅读这篇工作前,先阅读一篇关于雷达数据处理的文章以了解RD和RadarPointCloud的区别:毫米波雷达:信号处理—https://zhuanlan.zhihu.com/p/524371087
  1. Abstract:作者借鉴GCN,提出基于毫米波原始数据Range-beam-Doppler tensor进行3D目标检测GRT-Net,相比作者自设定的baseline(grid-based-convolutional baseline也就是voxel这类方法)提升约10%,同时作者在真实环境下自采的数据集合来验证模型效果。此外,将检测距离增加至100m,大幅度提升检测范围。

  2. 网络结构:

640.png


这项工作的输入数据,并不是常见的雷达点云形式,这类点云是经过CFAR等算法处理后的结果,这类算法处理后的结果会导致原始信息丢失的问题(部分工作将CFAR更换为DL模型后能够有效降低点云噪声),近期的一些工作例如CRUW数据集,提供点云的上层数据-Range-Doppler数据,这类数据能够以较小损失的条件下保留较多的原始信息,但是,相对点云原始数据无法直接将数据用于检测等现有任务并且数据的直观性和结构化降低。在GCN中,RD不能够直接用于构建Graph,作者将其处理为range-beam-doppler坐标系下的voxel用于构建节点,edge则采用两种方案:根据节点的距离确定和固定权重。


  1. 重要部分:

(1) 极坐标系和笛卡尔坐标系

640.png


原始毫米波数据转换到极坐标系的表示


640.png


这里简单聊一下毫米波数据的转换过程,如上图所示,从左到右经过三次FFT变换,从原始的传感器采集到的MNK维度的IF信号到最后的RD数据,就是我们所需要的原始雷达数据,对RD数据进一步处理,得到点云数据信息,我们需要的是上图中最后一个数据的形式。


(2) 图的构建


  • 边的定义

首先,Radar-Doppler-Tensor作为输入数据(HWC),然后将输入切分成range-beam为单位的cell作为基本单元,每个cell(256 channels doppler)作为node feature,这样就完成了节点的原始特征定义。对于edge的定义如下(图的边则连接相邻range或者相邻angle的节点,边的权重与欧式空间中节点距离成反比(实验证明这个权重的设置并不重要):


640.png


  • 点的定义

GCN包括两层的图卷积(Aggregate Spatial Information, ReLU),此时向量变为channel=3的Tensor,然后经过双线形插值将数据转换为笛卡尔坐标系方便目标检测,后送入到FPN中融合多尺度的Range-Doppler数据,最后通过two-stage方法,将RoI-Proposal的向量提取并通过两个FC进行类别和属性的判别并通过NMS进行处理。以下是原始的Radar beam Tensor和经过转换到笛卡尔坐标系后的Tensor。


  • 节点更新:和GCN保持一致
  1. 实验:

如下,作者采集自真实场景的数据集各项参数:可以看出,部分遮挡的目标占有大半部分,目标大都分布在33.7m左右

640.png


如下,数据集中对于目标检测难度的定义:从距离和遮挡程度两者考虑


640.png


Baseline(GRT-Net):作者仅是为了证明voxel-based方法和graph-based方法的优劣性,将上述的两层图卷积网络替换为普通的2D卷积,激活函数等其他网络设置相同,具体结果如下所示:


640.png


可以看到,作者设置了两种对比,GRT-Net即作者提出的模型,第二三个模型的edge权重是不同的(cartesian-based和identical edge weights),通过12实验对比,可以得到,graph-based-method得到了全面的性能提升,23实验对比,identical的edge weights是有优势的。


640.png


以上结果是IoU=0.3的情况下,三类样本的PR曲线。


640.png


以上作者只与baseline进行了对比,其他的工作只是列举了他们的实验细节,也可以从这一节看出,在非毫米波点云数据的工作中(当然点云数据集也仍然没有高度公认的),还没有大部分工作都认同的数据集,我猜测:一是不同毫米波传感器之间的属性差别大难以统一、二是毫米波的论文开源工作较少,目前我找到的大部分工作都是只有论文,细节描述不清,因此难以复现出原本的性能。三是开源的大型数据集较少。希望未来大家能够将自己的工作开源,至少说明足够复现的细节。


总结


GCN和Voxel两类网络对比:在复杂度方面,graph-based的计算复杂度与点云数量呈线性相关性,而grid-based方法检测性能不仅受到grid大小,大量的voxel等于0值造成计算资源浪费,并且也受到检测距离的关系而需要在检测精度和效率之间做trade-off。在中心特征计算方面,radar pointcloud的点云过于稀疏,许多前景目标仅投影个位数的点云,通过voxel等方法会造成过度降采样中心特征丢失。当前各类榜单上grid-based方法能够有效避免point数量过大导致的复杂度过高的问题而成为主流超越point-wise的方法,但是由于radar的稀疏性(Nuscenes中radar和lidar大概是50:1的关系),采用point-wise的方法并不会导致很大的延迟。


Radar检测优劣:优势:另一方面,radar由于其长波优势,探测的距离也较大,对于高速公路这类检测目标单一且方向等属性较为单一的场景下,radar有着较大的优势。劣势:由于两个工作并不是同一数据集,所以两者无法横向对比,能够得到的几点是:毫米波所包含的信息是能够独立地进行3D检测,但是仅对于车辆(卡车、汽车、建造车辆等)大型反射性良好的目标进行检测,而对于弱反射的交通目标则检测效果较差。


两种数据对比:基于radar点云的检测都是需要预定义每个需要检测的类的bouding box大小,毫米波在辨别物体时有一定的优势,但是在物体的regression任务上缺乏可参考的尺寸特征(仅有RCS),在回归任务上需要预设大小。相比之下,在RD原始数据中显示地带有了目标的横截面积反射强度等信息(Doppler),工作2**(暂定没有预设尺寸)**可以在没有预设尺寸情况下较好回归目标属性。但是,在高度属性等地面垂直方向属性预测上,雷达这种平面数据无法有效预测。


1.2 Reference to Lidar


这类工作主要对Lidar Based方法进行改进,用于Radar。


1.2.1  Point-wise 的检测方法


2D Car Detection in Radar Data with PointNets (2019 IEEE Intelligent Transportation Systems Cnference)

出发点: 在point-level借鉴frustum-pointnet和pointnet进行3D目标检测。

640.png


作者基于Frustum-Pointnet和Pointnet进行了改进,提出一种point-wise的3D目标检测网络。整个模块分为三个部分:


  1. 第一部分基于现有的radar points生成2DPatch Proposals,相当于Frustum-Pointnet中的Frustum,用于聚合局部特征,现定某个patch内部的point点数为n,相当于对每个patch内部的点做一系列的操作,Patch Proposal的输入为n x 4(2D spatial data, ego motion compensated Doppler velocity and RCS information.)。
  2. 第二部分将proposal内部的点云提取局部和全局特征,经过对clutter和radar-target的点云过滤,输出mx4的筛选后的radar targets向量(与原始数据一致)。
  3. 最后一部分,将筛选出来的点经过传统的T-NET和Box-Estimation输出最后的各项属性。下面是更详细的结构图:

640.png


1.3 多模态融合


1.3.1 point-wise fusion和object-wise fusion(feature-level & decision level)集合用于多模态检测


Bridging the View Disparity of Radar and Camera Features for Multi-modal Fusion 3D Object Detection (2021 8月  arxiv 清华)


出发点: 在BEV空间,在point level和object level两个层面实现图像特征和点云特征的融合。

640.png



  • 提出RCBEV,该模型主要解决在3D检测中,毫米波和相机数据的异构融合检测问题,提出了一种Point-fusion和ROI fusion两种融合并存互补的想法。
  1. 模型架构:


图像分支:通过LSS的方法将图像特征转换到BEV空间,并通过ConvLSTM融合多帧的毫米波grid-based特征作为时序radar特征,与图像BEV特征进行point-wise的concate后,通过BEV特征编码器完成模态融合并基于此进行heatmap生成。


radar分支:通过对radar特征图的heatmap生成并与图像的heatmap进行融合,送入最终检测头预测。


融合分支:采用point-wise fusion和object-wise fusion两种融合兼顾的方式。


  1. 模型细节:


(1) point-fusion和ROI fusion两种融合并存互补的想法;

(2) two-stage-fusion方法:两个模态分支各自完成heatmap生成后,再次进行融合,在特征细粒度和全局信息融合上都有考虑到,融合结构如下所示:在融合之前,不用保持分辨率的一致,在point-wise融合时两个不同分辨率的模态要分别经过上下采样统一后融合。

(3)  在radar上使用conv-lstm这类方法进行时序雷达信息融合,作者以此解决点云的部分噪声问题:杂波和数据稀疏,但是没有通过消融实验证明lstm结构的合理性。


640.png


Point-Fusion&ROI-Fusion


(4) 雷达数据处理:temporal-spatial feature encoder

  • 每一帧的雷达点云都经过转换到current frame,输入的raw radar包含:x, y, vr, RCS;空间特征提取:使用常用的voxelnet或者pointpillars;
  • 时序特征:ConvLSTM,对空间特征特征图提取时序特征到Temporal Encoder中,具体结构可参考如下结构,将卷积和lstm结合起来,使得模型同时具有提取空间和时序特征的能力,这个在天气预测有一些应用;


640.png


ConvLSTM

(5) 图像特征提取:LSS


640.png


Image feature extraction


和BEVDet的方法一致,提取feature-map后,经过一系列的转换(lift)将特征转换为基于视锥分布的深度特征图,后通过pooling的方式(splat)特征到BEV空间。


  1. 评价总结

640.png


作者在BEV空间中以top-down的形式检测,没有引入先验的目标尺寸信息,而是通过中心点回归其他信息。


640.png


  • Baseline:相比未引入时序信息的BEVDet,在整体性能提高的基础上,在mAVE上尤其明显,毫米波雷达的引入,时序特征的提取对网络的速度性能提升非常大,相比BEVFORMER和BEVDET4D预测速度,通过融合毫米波雷达能够在避免多帧图像的计算复杂度增加的同时,提高速度的预测能力但是通过conv-lstm的方法完成雷达时序特征的提取相对其他方法并没有体现出其优势,这个可以对比目前的camera+radar主流方法的mAVE来看。

640.png


  • 模态消融实验:相比晴天,雨天毫米波雷达带来的提升更大,也能证明这种融合方式的鲁棒性。在光照对比上,白天带来的提升更加明显,总体上,本篇工作确实在多个极端天气下达到了良好的性能。

1.3.2 用图像分割增强毫米波点云的检测效果


RadSegNet: A Reliable Approach to Radar Camera Fusion (2022 年 8月)

出发点: 用语义分割结果渲染点云图,对毫米波点云引入图像语义信息用于3D检测。

640.png


  1. 模型架构:这里融合的方式并不复杂,类比与pointpainting的方式,将雷达点云赋予语义信息(图像经过pretrained maskrcnn的分割后的全景分割图像),生成semantic map用于渲染投影到FOV后对应的毫米波点云,然后分别与对应的点云的特征和BEV occupy map进行叠加,到此完成特征的对齐和不同特征向量的叠加。后利用UNet网络提取多尺度特征,分别送入分类和回归检测头。这篇文论的精彩之处我认为在于SPG representation的前面:

  2. 模型细节:

(1) 点云渲染

640.png


通过对比,可以看出在语义通道中,毫米波通过语义分割渲染后的点云带有图像本身的语义信息,能够直观反映了其能够弥补毫米波缺少类别特征的劣势。


(2) 检测头


640.png


  • 最后两个检测头分别预测NC128128也就是N个anchor的类别,而另一个输出为7N128128,7为每个anchor的属性,包括x, y, z, w, h, l, theta这7个属性。

(3) 天气模拟


作者使用图像增强库模拟增加极端天气:大雾、大雪等天气,可以控制雪花大小、下降速度等参数模拟真实环境。


(4)模型输入:


  • 分为BEV occupy grid, RadarPoint Feature, Semantic Maps,共计22 dims,在输入模型前全部通过concate完成grid-level的特征对齐。
  • 作者将点云格式化为grid-based feature map,如果多个点投影到同一grid,那么就计算平均值,同时y设置为7个channel代表不同的高度,弥补毫米波雷达不含有高度信息的缺点,n表示点云投影到grid的个数。数据由I(u,v)为0\1布尔值代表是否为空,d,r代表Doppler和Intensity。
  1. 分析总结


image.png

作者在Astyx dataset数据集完成训练任务,在RADIATE进行测试。RADIATE相比训练的数据集,极端环境的占比更多,对模型的鲁棒性要求更高。


(1)在Astyx数据集对比中:baseline选取Perspective-view-based方法当时的SOTA-Centerfusion进行比较,为了保持公平,将预训练的centernet微调到新数据集中,实验结果也证明微调后的网络比from-scratch的centernet网络表现更好,作者基于此对centernet进行了微调并用于centerfusion。centerfusion性能下降很多,但是作者没有给出足够的细节,我能推测出来的:RadSegNet在BEV下3D检测的结果与Centerfusion的FOV检测结果相比较。


(2)作者使用segmentation后的结果渲染point,所以融合的效果严重依赖于分割的效果,在极端天气下的分割效果如下图所示,点云的语义特征会严重退化


image.png


(3) lidar vs radar


image.png

image.png


作者将pointcloud换成lidar进行了对比试验,可以看出,在近处激光雷达的效果要优于毫米波,在远处发生了目标的遮挡并且lidar点云的密度急剧下降,作者计算了不同的感知距离上限下性能的变化,可以看出radar在远距离检测的优越性。毫米波作为长波,相比激光雷达,在穿透性和感知距离上都要更优,但是同时也导致了毫米波雷达的多路径干扰等问题。


(4) 相比nuscenes,作者使用的这两个采集自真实场景的数据集由于其极端环境的占比较高,因此对于算法的鲁棒性要求更高,在nuscenes数据集上,点云过于稀疏同时极端的环境占比并不高,在许多


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
6月前
|
机器学习/深度学习 算法 数据挖掘
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
600 1
|
6月前
|
传感器 算法 Shell
[工业3D] 主流的3D光学视觉方案及原理
[工业3D] 主流的3D光学视觉方案及原理
134 0
|
传感器 机器学习/深度学习 人工智能
[OpenVI-视觉生产系列之视频稳像实战篇]再见吧云台,使用AI“魔法”让视频稳定起来
随着自媒体与短视频的兴起,人们有了越来越多的拍摄视频的需求。然而由于手持拍摄、硬件限制等原因,利用手机等普通摄影设备拍摄的视频难免存在视频抖动问题。尤其是开启较高倍数的变焦后,手持拍摄很难拍摄到稳定的视频,极易产生抖动的现象。使用云台、斯坦尼康等外设可以缓解这样的抖动,但是很多时候多带一个外设降低了拍摄视频的便利程度,会使得随时随地的拍摄体验大打折扣。
679 0
[OpenVI-视觉生产系列之视频稳像实战篇]再见吧云台,使用AI“魔法”让视频稳定起来
|
传感器 机器学习/深度学习 人工智能
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
216 0
|
传感器 机器学习/深度学习 算法
CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效
CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效
225 0
|
传感器 机器学习/深度学习 自动驾驶
传感器失效怎么办?MetaBEV:一种新颖且鲁棒感知网络架构,专治各自传感器疑难杂症
传感器失效怎么办?MetaBEV:一种新颖且鲁棒感知网络架构,专治各自传感器疑难杂症
202 0
|
传感器 数据采集 机器学习/深度学习
毫米波雷达在多模态视觉任务上的近期工作及简析(下)
在近些年,2D检测任务在自动驾驶的热度递减,取而代之的是3D任务,毕竟现在的实际场景一直多是基于3D场景。但是在3D检测或者分割等任务中,雷达赋予了一个不一样的角色,在之前FOV视角中,毫米波点云大多为了与FOV特征融合,都是通过投影这一种方法,而放到3D场景中,分为两个流派:一个是点云流派:由于lidar和radar具有天然的相似性(当然是处理后的点云),自然就有lidar的相关角色赋予毫米波雷达,相应的,毫米波的角色从FOV到了BEV,它的下游任务,也从辅助为主到BEV下的分割、深度估计、生成密集点云等。
毫米波雷达在多模态视觉任务上的近期工作及简析(下)
|
传感器 机器学习/深度学习 数据采集
2022最新!视觉SLAM综述(多传感器/姿态估计/动态环境/视觉里程计)(上)
论文调查的主要目的是介绍VSLAM系统的最新进展,并讨论现有的挑战和未来趋势。论文对在VSLAM领域发表的45篇有影响力的论文进行了深入的调查,并根据不同的特点对这些方法进行了分类,包括novelty domain、目标、采用的算法和语义水平。最后论文讨论了当前的趋势和未来的方向,有助于研究人员进行研究。
2022最新!视觉SLAM综述(多传感器/姿态估计/动态环境/视觉里程计)(上)
|
机器学习/深度学习 传感器 存储
2022最新!视觉SLAM综述(多传感器/姿态估计/动态环境/视觉里程计)(下)
论文调查的主要目的是介绍VSLAM系统的最新进展,并讨论现有的挑战和未来趋势。论文对在VSLAM领域发表的45篇有影响力的论文进行了深入的调查,并根据不同的特点对这些方法进行了分类,包括novelty domain、目标、采用的算法和语义水平。最后论文讨论了当前的趋势和未来的方向,有助于研究人员进行研究。
2022最新!视觉SLAM综述(多传感器/姿态估计/动态环境/视觉里程计)(下)
|
传感器 机器学习/深度学习 人工智能
一文尽览 | 全景/鱼眼相机低速自动驾驶的近距离感知(识别+重建+定位+工程化)(上)
本文的工作部分受到了Malik等人在[5]中的工作的启发。这项工作的作者提出,计算机视觉的核心问题是重建、识别和重组,他们称之为计算机视觉的3R。在此,论文建议将计算机视觉的3R扩展并专门化为自动驾驶计算机视觉的4R:重建、识别、重组和重新定位。
一文尽览 | 全景/鱼眼相机低速自动驾驶的近距离感知(识别+重建+定位+工程化)(上)