车道线检测是自动驾驶与计算机视觉领域中的重要研究方向,3D车道线任务更是近几年的研究热点,下面为大家盘点下近三年的一些工作!
1.3D-LaneNet
3D-LaneNet: End-to-End 3D Multiple Lane Detection.ICCV2019
代码链接:https://sites.google.com/view/danlevi/3dlanes
3D-LaneNet引入了一种网络,该网络可以从单个图像直接预测道路场景中车道的3D布局。这项工作标志着首次尝试在不假定已知的恒定车道宽度或依赖mapping环境的情况下,通过车载传感来解决这一任务。3D-LaneNet应用了两个新概念:网络内反向透视映射(IPM)和基于anchor的车道表示。网络内IPM投影促进了在常规图像视图和俯视图中的双重表示信息流。基于anchor的每列输出表示支持了端到端方法,该方法取代了常见的启发式方法,如聚类和异常值reject,将车道估计作为目标检测问题。此外,本文还显式地处理车道合并和拆分等复杂情况。结果显示在两个新的3D车道数据集上,一个是合成数据集,另一个是真实数据集。为了与现有方法进行比较,3D-LaneNet在仅图像的tuSimple车道检测基准上实现了与现有技术相比具有竞争力的性能。
网络结构如下:
3D LaneNet的概述如上图所示,信息在两个平行的流或路径中处理:图像视图路径和俯视图路径,称之为双通道主干。图像视图路径处理并保存来自图像的信息,而俯视图路径提供具有平移不变性的特征,并用于预测3D车道检测输出。图像视图路径的架构基于VGG16,而俯视图路径的结构类似,信息通过如下四个投影变换层流向俯视图路径。
2.3D-LaneNet+
3D-LaneNet+: Anchor Free Lane Detection using a Semi-Local Representation(NIPS2020)
3D LaneNet+是一种基于camera的DNN方法,用于anchor-free3D车道检测,能够检测任何任意拓扑的3D车道,例如分割、合并以及短车道和垂直车道。作者遵循了前面提出的3D LaneNet,并对其进行扩展,以实现对这些不支持的车道拓扑的检测。3D-LaneNet+输出表示是一种无锚的半局部平铺表示,它将车道划分为简单的车道段,这些车道段的参数可以学习。此外还学习了每个车道实例的特征嵌入,这是局部检测到的路段形成完整三维车道的全局连通性的原因。这种组合允许3D LaneNet+避免使用车道anchor、非最大抑制和车道模型拟合,如原始3D LaneNet中那样。论文使用合成数据和真实世界数据证明了3D LaneNet+的有效性。结果表明,与原始3D车道线检测网络相比有显著改进,这可以归因于对复杂车道拓扑、曲率和曲面几何的更好概括。
3D-LaneNet+网络由两个处理pipelines组成:图像视图(顶部)和BEV(底部),最终抽取的BEV特征图被馈送到车道线预测头,该预测头输出局部车道段和全局嵌入!整体任务包括半局部平铺表示和车道段参数化以及使用学习嵌入将车道段聚类在一起!
作者与3D-LaneNet进行了对比,mAP提升明显!
3.Gen-LaneNet
Gen-LaneNet: A Generalized and Scalable Approach for 3D Lane Detection
数据集链接:https://github.com/yuliangguo/3D_Lane_Synthetic_Dataset
代码链接:https://github.com/yuliangguo/Pytorch_Generalized_3D_Lane_Detection
也是和3D-LaneNet进行对比,论文提出了一种通用且可扩展的方法,称为Gen LaneNet,用于从单个图像中检测3D车道。该方法受到最新的3DLaneNet启发,是一个统一的框架,可在单个网络中解决图像编码、特征空间转换和3D车道预测。Gen LaneNet提出了两种独特的设计,首先,在新的坐标系中引入新的几何引导车道锚点表示,并应用特定的几何变换从网络输出中直接计算真实的3D车道点。论文证明,将车道点与新坐标系中的基本俯视图特征对齐对于处理不熟悉场景的通用方法至关重要。其次提出了一个可扩展的两阶段框架,该框架将图像分割子网络和几何编码子网络的学习解耦。与3D LaneNet相比,所提出的Gen LaneNet大大减少了在现实应用中实现稳健解决方案所需的3D车道标签数量。此外,作者还发布了一个新的合成数据集及其构建策略,以鼓励开发和评估3D车道检测方法。实验进行了广泛的消融研究,以证实所提出的GenLaneNet在平均精度(AP)和F评分方面显著优于3D LaneNet。
Gen LaneNet整体结构如上所示,分割主干(图像分割子网络)首先将输入图像编码为deep特征,并将这些特征解码为车道分割图。给定作为输入的分割,3D GeoNet(几何编码子网络)专注于几何编码,并预测中间的3D车道点,具体表现在俯视图中二维坐标和实际高度。最后,所提出的几何变换将网络输出直接转换为真实世界的三维车道点!
和3DLaneNet的对比:
实验旨在证明,当提供更稳健的图像分割时,两阶段方法可能获得更高的精度,同时当提供完美的图像分割子网络时,可以定位Gen LaneNet的上界。如表2所示,在所有三种实验设置中,3D GeoNet始终优于Gen LaneNet和3D LaneNet。可以注意到在平衡场景中,与Gen LaneNet相比的改善非常明显,大约好3%,而在很少观察到的场景和具有视觉变化的场景中,改善显著,从5%到7%。此外,表2还显示了我们方法的有前景的上限,如3D GeoNet在F-score和AP方面,3D Gen-LaneNet的表现要比3D LaneNet高出5%到18%。
4. PersFormer(ECCV22 oral)
PersFormer: 3D Lane Detection via Perspective Transformer and the OpenLane Benchmark(ECCV2022 oral)
代码链接:https://github.com/OpenPerceptionX/PersFormer_3DLane
数据集链接:https://github.com/OpenPerceptionX/OpenLane
最近提出了许多3D车道检测方法,以解决自动驾驶场景(上坡/下坡、颠簸等)中车道布局不准确的问题。由于前视图和鸟瞰图(BEV)之间的空间转换设计简单,且缺乏真实的数据集,先前的工作在复杂情况下举步维艰。针对这些问题,本文提出了PersFormer:一种具有新颖的基于Transformer的空间特征变换模块的端到端单眼3D车道检测器。PersFormer通过以相机参数作为参考,关注相关的前视局部区域来生成BEV特征。PersFormer采用统一的2D/3D锚点设计和辅助任务来同时检测2D/3D车道,增强了特征一致性并共享了多任务学习的好处。此外,论文还发布了第一个大型真实世界3D车道数据集:OpenLane,具有高质量注释和场景多样性。OpenLane包含200000帧、超过880000条实例级车道、14个车道类别,以及场景标签和封闭路径对象注释,以鼓励车道检测和更多工业相关的自动驾驶方法的发展。论文表明,PersFormer在我们新的OpenLane数据集和Apollo 3D lane Synthetic数据集上的3D车道检测任务中显著优于其它基线,并且在OpenLane上的2D任务中也与最先进的算法不相上下!
PersFormer pipelines如上图所示,核心是学习从前视图到BEV空间的空间特征转换,以便通过关注参考点周围的局部上下文,在目标点生成的BEV特征更具代表性。PersFormer包括self-attention模块,用于与自己的BEV查询交互,交叉关注模块,从基于IPM的前视图特征中获取键值对,以生成细粒度BEV特征!
如上图所示,整体结构由三部分组成:主干、透视变换器和车道线检测头。主干将调整大小的图像作为输入,并生成多尺度前视图特征,采用了流行的ResNet变体。注意,这些特征可能会受到尺度变化、遮挡等缺陷的影响,这些缺陷存在于前视图空间中的固有特征提取。透视变换器将前视图特征作为输入,并通过相机内部和外部参数生成BEV特征。论文不是简单地将一对一的特征对应从前视图投影到BEV,而是引入Transformer来关注局部上下文并聚合周围特征,以在BEV中形成稳健的表示。这样做可以使用Transformer以优雅的方式学习从前视图到BEV的逆透视映射。最后,车道检测头负责预测2D/3D坐标以及车道类型,2D/3D探测头被称为LaneATT和3D LaneNet,对结构和anchor设计进行了修改。
论文开源的数据集:
PersFormer和其它SOTA模型性能对比:
5.ONCE-3DLanes(CVPR2022)
ONCE-3DLanes: Building Monocular 3D Lane Detection(CVPR2022)
数据集链接:https://once-3dlanes.github.io/
华为诺亚开源的数据集:ONCE-3DLanes,这是一个具有三维空间中车道布局注释的真实世界自动驾驶数据集。由于道路不平,来自单目图像的传统2D车道检测在自动驾驶中产生了跟随规划和控制任务的较差性能。因此,预测3D车道布局是必要的,能够实现有效和安全的驾驶。然而,现有的3D车道检测数据集要么是未发布的,要么是从模拟环境中合成的,这严重阻碍了该领域的发展。本文将采取措施解决这些问题,通过利用点云和图像像素之间的显式关系,设计了数据集标注pipelines,以从211K道路场景中的2D车道注释自动生成高质量的3D车道位置。此外,论文还提出了一种称为SALAD的外部自由无锚方法,在图像视图中回归车道的三维坐标,而不将特征图转换为鸟瞰图(BEV)。
SALAD的结构如上所示,主干将输入图像编码为深度特征,两个分支即语义感知分支和空间上下文上下文分支对特征进行解码,以获得车道的空间信息和分割掩码。然后通过整合这些信息来执行3D重建,并最终获得真实场景中的3D车道位置。
数据集介绍:
实验结果对比:
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)