6.Reconstruct from BEV
Reconstruct from BEV: A 3D Lane Detection Approach based on Geometry Structure Prior(CVPR 2022 workshop)
本文提出了一种比较先进的方法,通过在2D到3D车道重建过程中利用几何结构来解决单目3D车道检测问题。受先前方法的启发,作者首先分析了3D车道及其在地面上的2D表示之间的几何启发式,并提出基于结构先验进行显式监督,这使得可以建立车道间和车道内关系,以促进从局部到全局的3D车道重建。其次,为了减少2D车道表示中的结构损失,论文直接从前视图图像中提取BEV车道信息,这极大地减轻了先前方法中对远处车道特征的混淆。此外,作者提出了一种新的特定于任务的数据增强方法,通过为pipelines中的分割和重建任务合成新的训练数据,以对抗相机姿态的不平衡数据分布和地面坡度,改进对未发现数据的概括。这项工作标志着首次尝试将几何先验信息应用于基于DNN的3D车道检测,并使其可用于检测超长距离的车道,使原始检测范围加倍。所提出的方法可以被其他框架顺利采用,而无需额外费用。实验结果表明,在Apollo 3D合成数据集上,本文的工作在不引入额外参数的情况下以82 FPS的实时速度以3.8%的F-Score优于最先进的方法。
整体3D车道检测框架,该框架由BEV(俯视图)分割网络和基于anchor的3D车道回归器组成。从前视图图像提取的特征被投影到BEV上,以在BEV监督下直接生成分割掩模。然后从BEV车道掩模估计3D车道的锚表示,此外,论文明确地利用3D到2D投影之前的几何体来进行3D车道重建。
所提出的方法从前视图相机获取单个RGB图像,并在3D世界空间中输出一组车道实例。论文假设摄像机安装时相对于世界坐标的横摇或偏航为零,并且由于车辆波动,只有俯仰变化。建立世界坐标作为自我车辆坐标,起点作为摄像机中心在道路上的垂直投影。
实验对比:
7.BEV-LaneDet
BEV-LaneDet: Fast Lane Detection on BEV Ground(2022)
代码链接:https://github.com/hm-gigo-team/bev_lane_det
3D车道检测已经成为自动驾驶的一个积极发展的领域,这是车辆路线选择的关键,然而先前的工作没有平衡性能和有效性。这项工作提出了一种仅具有原始CNN和FC层的面向部署的单目3D车道检测器。该检测器在Apollo 3D Lane Synthetic数据集和OpenLane真实世界数据集上以96 FPS的运行速度获得了最先进的结果。在检测器中使用了三种技术:(1)虚拟摄像机消除了安装在不同车辆上的摄像机的姿态差异(2) 空间变换金字塔作为一种轻量级的前视到鸟瞰视图变换器,可以利用多尺度图像视图特性。(3) YOLO风格表示在鸟瞰图分辨率和运行时速度之间取得了良好的平衡,并且它可以减少由于训练期间车道检测任务的稀疏性而导致的类不平衡所导致的效率低下。实验结果表明,本文的工作在OpenLane数据集上的F1-score为10.6%,在Apollo 3D合成数据集上F1-score为4.0%,速度为96 FPS,优于最先进的方法。
上图为BEV-LaneDet概念图!
如图2所示,整个网络架构由四部分组成:
•虚拟相机:统一相机的内部和外部参数的预处理。•前视图主干:前视图特征提取器。•空间变换金字塔:将前视图特征投影到鸟瞰图特征。•YOLO样式表示:基于YOLO的探测器头。
如图2所示,首先将输入图像通过其内参数和外参数投影到具有固定内参数和外部参数的虚拟相机。该过程允许快速协调不同车辆上前摄像头的内部和外部参数。然后使用前视图特征提取器来提取前视图图像的特征。分别使用ResNet18和ResNet34进行了实验。为了更好地促进网络提取前视特征,在主干网络的输出部分增加了前视车道辅助监控。然后设计了一个快速的多尺度空间变换模块,称之为空间变换金字塔,该模块负责从前视图特征到BEV特征的空间转换。
图3为虚拟相机示意图,虚拟相机的核心是在逆透视映射(IPM)之后,当前相机和虚拟相机在Proad上共面!
YOLO结构的表示:
实验结果对比:
8.CurveFormer(ICRA2023)
CurveFormer: 3D Lane Detection by Curve Propagation with Curve Queries and Attention(ICRA 2023)
以前的CNN和基于变换的方法通常首先从前视图图像生成鸟瞰图(BEV)特征图,然后使用具有BEV特征图作为输入的子网络来预测3D车道。这种方法需要BEV和前视图之间的显式视图转换,这本身仍然是一个具有挑战性的问题。本文提出CurveFormer,一种单级基于transformer的方法,直接计算3D车道参数,并可以绕过困难的视图转换步骤。通过使用曲线查询将3D车道检测公式化为曲线传播问题。三维车道查询由动态有序锚点集表示,通过这种方式,Transformer解码器中具有曲线表示的查询迭代地细化3D车道检测结果。此外,引入了曲线交叉关注模块来计算相似性(在曲线查询和图像特征之间)。此外,该方法还提供了可以捕获曲线查询的更多相对图像特征的上下文采样模块,以进一步提高3D车道检测性能。在合成和真实世界数据集上评估了提出的3D车道检测方法,实验结果表明,与最先进的方法相比,本文的方法取得了令人满意的性能,每个组件的有效性也通过消融研究进行验证。
上图为不同3D车道检测pipelines的比较,(a) 2D图像预测和后处理;(b) 基于相机外部预测的三维车道检测;(c) 基于变换的密集BEV地图构建和3D车道预测;(d) CurveFormer直接提供3D车道 ,使用Transformer解码器中的曲线交叉关注机制,通过稀疏曲线查询获取参数。
图3显示了CurveFormer的概述,它由三个主要部分组成:(1)共享CNN主干以单个前视图图像作为输入并输出多尺度特征图;(2) transformer编码器,用于随后增强多尺度特征图以及(3)曲线transformer解码器,用于通过曲线交叉关注传播曲线查询,最后,应用预测头输出3D车道参数!
context sampling结构如下所示:
实验结果对比:
9.Anchor3DLane
Anchor3DLane: Learning to Regress 3D Anchors for Monocular 3D Lane Detection(2023)
由于缺乏深度信息,单目3D车道检测是一项具有挑战性的任务。,3D车道检测的一个流行解决方案是首先使用逆透视映射(IPM)将前视图(FV)图像或特征转换到鸟瞰(BEV)空间,并从BEV特征中检测车道。然而,IPM对平坦地面假设的依赖和上下文信息的丢失使得从BEV表示中恢复3D信息变得不准确。已经尝试去除BEV并直接从FV表示中预测3D车道,但由于缺乏3D车道的结构化表示,该方法仍表现不佳。本文定义了三维空间中的三维车道anchor,并提出了一种名为Anchor3DLane的无BEV方法,以直接从FV表示预测三维车道。3D车道anchor被投影到FV特征,以提取它们的特征,这些特征包含良好的结构和上下文信息。进一步将Anchor3DLane扩展到多帧设置,以结合时间信息以提高性能。此外还开发了一种全局优化方法,该方法利用车道之间的等宽特性来减少预测的横向误差。在三个流行的3D车道检测基准上的大量实验表明,Anchor3DLane优于先前基于BEV的方法,并实现了最先进的性能。
上图中的(a) 基于BEV的方法,其在扭曲的BEV图像或特征中执行车道检测,(b) 非BEV方法,将2D车道预测投影回具有估计深度的3D空间,(c) Anchor3DLane将3D锚点投影到FV特征中,以直接采样特征进行3D预测。
论文主要的贡献:
1.提出了一种新的Anchor3DLane框架,该框架在3D空间中直接定义锚,并在不引入BEV的情况下直接从FV回归3D车道;
2.还提出了对Anchor3DLane的多帧设置的扩展,以利用良好对齐的时间信息来进一步提高性能;
3.开发了一种全局优化方法,以利用车道的等宽特性进行优化;
4.Anchor3DLane优于以前基于BEV的方法,并在三个流行的3D车道检测基准上实现了最先进的性能;
Anchor3DLane的整体架构,给定正视输入图像,采用CNN主干和Transformer层来首先提取视觉特征F。然后投影3D anchor以从F个给定的相机参数中采样其特征,然后,应用分类头和回归头进行最终预测。车道预测也可以作为迭代回归的新3D anchor。
实验结果对比:
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)