高精地图落地 | InstaGraM:实时端到端矢量化高精地图新SOTA!

简介: 论文提出回归距离转换地图,因为它们在顶点之间提供了强大的空间关系和方向信息,而不是依赖于普通的分割方法。在nuScenes数据集上的综合实验表明,InstaGraM比HDMapNet高13.7mAP,并实现了与VectorMapNet相当的精度,推理速度提高了5倍。

摘要



构建包含几何和语义信息的轻量级高精(HD)地图对于自动驾驶的大规模部署至关重要。为了从车辆捕获的一组图像中自动生成此类地图,大多数工作都将此映射表述为分割问题,这意味着需要进行大量的后处理以获得最终的矢量化表示。替代技术能够以端到端的方式生成HD地图,但依赖于计算昂贵的自回归模型。为了将基于相机的应用水平提高到一个适用的水平,论文提出了InstaGraM,这是一个快速的端到端网络,通过地图元素的实例级图形建模生成矢量化的高精地图。论文的策略包括三个主要阶段:俯视图特征提取、道路元素的顶点和边缘检测,以及转换为语义向量表示。在自上而下的特征提取之后,利用编码器架构来预测道路元素的一组顶点和边缘图。最后,通过注意力图神经网络将这些顶点与边缘图相关联,生成语义矢量化地图。论文提出回归距离转换地图,因为它们在顶点之间提供了强大的空间关系和方向信息,而不是依赖于普通的分割方法。在nuScenes数据集上的综合实验表明,InstaGraM比HDMapNet高13.7mAP,并实现了与VectorMapNet相当的精度,推理速度提高了5倍。

640.png


总结来说,本文的主要贡献如下:

  • 论文提出了一种新的地图元素矢量化折线的图形建模,该模型将几何、语义和实例级信息建模为图形表示;
  • 在提出的图形建模的基础上,论文提出了InstaGraM,这是一个端到端的矢量化高精地图学习网络,旨在实现实时性能。


相关工作



道路检测和分割:总的来说,从车载传感器中提取高级场景语义信息一直是自动驾驶的热门话题。特别是,道路元素(例如,车道、道路标记和道路标志)的检测[1,21]和分割[17]对于一系列任务都非常有价值,包括定位[2,14]、车道保持[33]、自动停车[18]等。为了实现这一目标,早期的车道检测算法依赖于手工制作的二值分割,然后是直线或曲线拟合策略[3]。虽然这种方法通常很快,但它们对不利条件(如照明、阴影、道路磨损)仍然脆弱,并且仅限于车道检测。由于这些原因,这些方法已逐渐被基于深度学习的策略所取代,这些策略为车道和道路标记分割提供了更大的灵活性和鲁棒性[25]。虽然上述技术从相机的角度提供了丰富的信息,但它们不包含关于场景中观察到的元素的3D信息。


BEV分割:为了提供对车辆周围环境的更全面的3D理解,最近的研究表明,BEV语义分割特别适合自动驾驶[31]。当只考虑道路标记时,可以通过图像级分割结果的逆透视映射(IPM)轻松地获得这种表示[19]——假设已知的相机的内参、高度和倾斜角。在平面假设下,IPM翘曲是有效的,但对于地面以上的任何物体(例如,汽车和行人)都会违反IPM翘曲,从而导致产生的BEV中的严重透视失真。为了避免这种拉伸效应,[6,29]预测车辆轨迹,以尊重平面假设。为了避免使用专用汽车的轨迹数据集,Cam2Bev[37]试图从扭曲的分割掩模直接纠正这种失真,[51]提出了一种基于GAN的方法,将正面视图直接转换为BEV,在BEV上可以实现分割。


或者,为了处理不平坦路面和非平坦目标,一些方法利用深度信息自适应地扭曲分割结果[41]。遵循类似的理念,[36]建议使用深度信息将CNN特征组合到BEV空间中。因此,可以在该表示中直接计算分割,从而可以更好地集成多摄像机系统。同形或深度感知扭曲策略具有直观、可解释的优点,并可为各种相机设置提供良好的可移植性。尽管有这些优点,几何扭曲解决方案仍面临多重限制:它们依赖于强大的先验,可能会受到透视失真的影响,需要连续的阶段。为了避免这些限制,另一种解决方案是使用神经网络来学习图像到BEV的隐式变换。采用该策略的一项开创性工作是VED[30],它直接使用变分自动编码器从输入图像预测BEV,而无需中间阶段。


为了更好地保存空间信息并简化交叉视图信息的集成,后续工作依赖于更易于解释和优雅的方法来映射相机视图和BEV中的特征之间的转换。其中一项开创性的工作是[34],其中使用多层感知器(MLP)来学习这种映射。在将来自多个视图的图像特征映射到统一的BEV之后,可以将分割学习到该最终表示中。这种方法结合了多种优点。与IPM不同,它不需要任何事先标定,也不受透视失真(全局感受野)的影响。因此,该策略影响了许多提出各种改进的作品,如多分辨率特征[38,39]和可学习的双向投影[23]。最近,为了提供更具表现力和数据依赖性的映射,transformer网络的使用有所增加[35,47]。这些方法的问题是其高内存需求,为了缓解这一问题,最近的工作采用了可变形transformer网络[9,24,49]。


矢量化高精地图检测:先前介绍的文献[24,34–36,47,49]预测光栅化BEV空间中的地图元素。这种表示的缺点是缺乏结构关系和实例级信息。为了为与自动驾驶相关的下游任务提供更轻、更合适的表示[13],最近的工作[16,23,26–28]建议估计矢量化的HD地图元素,而不是分割地图。InstaGraM属于此类。HDMapNet[23]是一项代表性工作,它通过对各种BEV分割图进行后处理来生成矢量化的HD图。尽管结果很有希望,但启发式后处理需要大量的计算。为了以端到端的方式预测矢量化地图,VectorMapNet[28]提出了两个连续的transformer解码器;第一解码器通过BEV特征和元素查询之间的交叉注意力来检测地图元素,而第二transformer采用自回归解码器来递归地生成折线。然而,来自具有交叉注意力的元素查询的检测以其缓慢收敛而闻名,因此需要更长的训练时间[7,50]。VectorMapNet折线生成器中的自回归解码器计算量大,不适用于实时自动驾驶任务。相比之下,论文提出的体系结构不需要大量的训练时间,也不需要重复模型的大量计算。


Poly-World[52]的一项工作与本文的方法有相似之处,它通过卫星图像将建筑物的轮廓预测为一组多边形。与本文的策略类似,该技术使用CNN进行顶点检测,然后使用GNN进行关联。与PolyWorld相比,论文采用[11]预测高分辨率顶点坐标的感兴趣点解码器。此外,利用距离变换嵌入来关联顶点之间的隐式方向信息。最后,本文的策略设计用于需要语义和实例分割信息的道路元素检测。


方法



如图2所示,论文提出了一种端到端网络,用于从安装在车辆上的一组摄像机计算BEV矢量化高清地图。为了表示道路元素(即车道分隔线、人行横道和道路边界),HD地图通常由二维折线顶点及其实例级邻接连接组成。为了获得这种向量表示,先前的工作依赖于分割预测和繁重的后处理[23],或以其高计算成本而闻名的自回归模型[28]。相比之下,论文提出了一种基于神经网络和GNN的组合的更轻的流水线,能够直接预测一组顶点及其相邻性。论文的方法有三个方面。首先,类似于HDMapNet[23],利用基于MLP的方法,通过EfficientNet[43],从从摄像机拍摄的每个图像中提取的CNN特征构建统一的BEV特征图。从该BEV特征图中,两个CNN解码器提取观察到的道路元素的顶点和边缘图。最后,这些顶点及其局部边缘响应被馈送到注意力GNN,以学习语义类和顶点之间的连接。

640.png


神经视角转换


论文的高精地图估计网络的第一个阶段是通过组合CNN特征[43],从摄像机在给定时间捕获的每个图像中提取自上而下的BEV特征图image.png。为了与基线进行公平比较,论文采用了简单的神经视角变换,通过简单的MLP将透视图像素和BEV像素关联起来。有关提取该特征图的更多信息,请参考[23]。


元素检测头


从自上而下的特征图image.png中,论文使用两个CNN解码器image.png提取HD地图元素的顶点和边缘。这两个分量在光栅化BEV空间中被预测,类似于分割任务。顶点解码器image.png采用[11]中的感兴趣点解码器,并提取BEV像素中每image.png个局部非重叠网格处的可能位置热力图。在通道方向的softmax之后,去除背景维度,并将顶点热力图从image.png重塑为image.png。与顶点解码器并行,边缘图解码器image.png预测距离变换图D(通道数位3),这3个通道指示地图元素的类别的数量。这种距离变换的边缘映射[4]隐式地提供了顶点之间的空间关系以及从[16,26,27]中得到的映射元素的方向信息。论文在后续章节进一步证明,作为边缘映射的距离变换表示在实例级关联中起着重要作用。论文在最后一个Conv层之后应用ReLU和阈值来预测光栅化BEV图像中从0到10的距离值。


通过GNN关联


从元素检测器头部提取的两个分量通过GNN相关联,其中所有顶点在整个注意力方案中相互作用[12,44]。这使得论文的网络能够基于各种属性(包括位置、距离值的隐式边缘图和类别)来推理地图元素之间的点级和实例级关系。


图嵌入:论文结合顶点位置和距离变换映射来形成初始图嵌入。首先从顶点位置热力图中的channel-wise softmax中提取光栅化BEV坐标中每个顶点的位置及其各自的置信度。论文只在每个8*8网格单元中提取一个具有最大置信度的独特顶点位置,这与非最大抑制类似。提取后,通过正弦位置编码函数对第i个顶点位置vi进行编码,以将其放大为高维向量[32]。这种位置编码进一步由附加的浅层MLP支持。为了补充顶点vi的位置信息,论文另外包括局部方向信息作为与同一网格单元对应的距离变换块的嵌入。然后,初始图由D维嵌入组成,结合了顶点位置及其方向局部信息,可以公式化为:

640.png


这使论文能够在整个注意力方案中基于其顶点和边缘表示来关联多个图嵌入。


来自SuperGlue的注意力信息传递[40]:从初始图开始,其中节点包含顶点位置和边缘图嵌入作为高维向量。此初始图形具有双向边,将顶点i连接到所有其他顶点。为了进一步增强节点并找到顶点的最终边缘,论文将初始图传递给注意力图神经网络,并通过信息传递来传播该图[40,45]。目标是找到顶点的最终双向边作为地图元素的实例级信息。论文将初始图输入注意力图神经网络,该网络通过由MLP和多头自注意(MSA)组成的消息传递聚合图嵌入:

640.png


方程2中的自注意力和聚合基于中嵌入的所有图形嵌入的空间和方向外观提供了它们之间的交互。具体来说,每个顶点节点都会关注所有其他节点,以找到将出现在地图中的下一个可能顶点。在L层注意力聚集之后,获得了分类分数和图形匹配嵌入:

640.png


邻接矩阵:论文通过计算图G的节点之间的得分矩阵来预测最优边。节点i和j之间的邻接得分可以计算为嵌入向量的余弦相似度:


640.png


损失


论文将整个网络设计为可区分的,允许我们以全监督的方式对其进行训练,同时在多个分支处组合损失。对于元素检测头的监督,使用cross-entropy with softmax loss和L2 loss分别用于顶点位置热力图和距离变换图:

640.png


来自顶点位置热力图预测的坐标可能与GT顶点坐标不完全对齐,特别是在训练的早期阶段,导致GT邻接和类标签的模糊。为了解决这一问题,论文找到了GT顶点和预测顶点之间的最近对,以为图形神经网络、邻接矩阵和类预测的输出提供GT。获得距预测顶点i最近的地面真值顶点,该顶点使具有阈值D0的倒角距离成本最小化:

640.png


没有GT对的预测顶点落入dustbin vertex作为GT邻接(即图3中的v2)。由于地图的矢量化表示具有双向边缘,论文计算了正向和反向相邻损失的负对数似然:

640.png


论文进一步监督具有负对数似然的图神经网络进行顶点分类。通过这种监督,论文的图神经网络可以推理除了实例级信息之外的顶点标签类别:

640.png

最终损失函数如下:


640.png


实验



论文在nuScenes数据集上展开实验。


结果


与基线方法的比较:论文与最先进的矢量化高精地图学习管道HDMapNet[23]和VectorMapNet[28]进行了比较。HDMapNet预测了三种类型的分割地图——语义分割、实例嵌入和方向预测——并利用启发式后处理生成矢量化地图元素。VectorMapNet利用DETR[7]中的transformer解码器来预测地图元素,并利用自回归变换器解码器生成地图元素的详细几何形状。论文使用EfficiencyNet-B0和EfficienceNet-B4来训练和评估InstaGraM,这两个主干分别与HDMapNet和VectorMapNet(ResNet-50)相当。表1显示,在相机模态下,与HDMapNet相比,InstaGraM的mAP高13.7,推理速度快33倍,与VectorMapNet相比mAP高0.6,推理速率快5倍。在这两个基线中,激光雷达模态提供了道路边界的明确3D位置,从而提高了AP。然而,论文的相机模态下的模型优于LiDAR模态下的HDMapNet和VectorMapNet,特别是在边界类上的观察。论文观察到距离变换提供了强大的空间关系来定位地图元素。此外,特别是与VectorMapNet相比,InstaGraM在训练中以更快的收敛时间实现了具有竞争力的性能。论文在表2中进一步报告了推理内存消耗。强调HDMapNet和VectorMapNet与实时性能不匹配,而InstaGraM不仅优于它们,而且在实时自动驾驶任务的计算内存和时间方面实现了更适用的性能。

640.png

640.png


定性结果:图4可视化了矢量化的HD地图预测。这表明InstaGraM在各种天气条件下都能很好地推广。InstaGraM以端到端的方式计算复杂地图元素的语义和实例级信息,而无需进行后期处理或大量计算。图3中所示的图形建模策略能够准确快速地预测地图元素。距离变换和位置嵌入提供了通过图形神经网络关联的精确基元,能够预测各种曲线形状,特别是在图3的第一行和第二行。前3行进一步表明,InstaGraM能够均匀地检测被遮挡的地图元素的顶点和连接。

640.png


消融实验:论文进一步对图嵌入的设计选择进行消融研究,如表3所示。发现从表3中的A和C中,位置嵌入发挥了重要作用,因为距离变换分布在整个顶点中看起来是相同的(见图1)。它提供了图形神经网络,可以在其中查找要关联的附近顶点。距离变换嵌入通过提供顶点的强方向信息而进一步改进(参见表3中的B和C)。

640.png


距离变换:论文通过与类似于PolyWorld中使用的嵌入的视觉描述符嵌入进行比较,进一步分析了距离变换嵌入[52]。PolyWorld从与预测顶点坐标相对应的图像特征图中提取向量,并将其称为“视觉描述符”。由于视觉BEV特征图的空间大小与感兴趣点解码器传递的顶点热力图的空间尺寸不匹配,因此论文对特征图进行插值以对齐空间尺寸。论文从对应于顶点坐标的插值特征图中获取视觉描述符,然后编码以形成图嵌入。图5比较了InstaGraM在不同数量N个顶点提取上使用不同图形嵌入(一个使用距离变换嵌入(DT),另一个使用视觉描述符嵌入(VD))的性能。两种设置均采用位置嵌入。尽管来自直接特征地图的视觉描述符包含场景的高级语义信息,但距离变换提供了地图元素的强先验性,从而获得了更好的性能。论文进一步强调,通过添加距离变换回归的辅助任务,它隐式地为网络提供了地面真实图的几何结构,以快速收敛的方式优于基线。

640.png


结论



论文提出InstaGraM,一种适用于实时自动驾驶的端到端矢量化高精地图学习管道。论文将HD地图元素的折线建模为具有顶点和构成实例级边的邻接矩阵的图形。与需要启发式后处理或大量计算成本的先前工作相比,InstaGraM实时计算地图元素的折线,与最先进的方法相比,实现了更好的性能。


参考



[1] InstaGraM: Instance-level Graph Modeling for Vectorized HD Map Learning


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
5月前
|
机器学习/深度学习 传感器 算法
【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集
【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集
|
12月前
|
传感器 数据可视化 vr&ar
三维视觉产品方案介绍
三维视觉产品方案介绍
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
趋势来袭!大模型时代的文档图像发展与图像安全剖析
趋势来袭!大模型时代的文档图像发展与图像安全剖析
50 1
|
4月前
|
文字识别 Linux API
视觉智能开放平台产品使用合集之图像构图美学评分的标准是什么
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
5月前
|
传感器 机器学习/深度学习 编解码
卫星图像10个开源数据集资源汇总
卫星图像10个开源数据集资源汇总
115 0
|
5月前
|
数据可视化 定位技术
R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(中)
R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(上)
R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化
|
5月前
|
数据可视化 AndFix
R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化(下)
R语言二手车汽车销售数据可视化探索:预处理、平滑密度图、地理空间可视化
|
5月前
|
编解码 算法 数据处理
【论文速递】ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据立体三维定位方法
【论文速递】ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据立体三维定位方法
|
监控 算法 vr&ar
鱼眼矫正,实时视频与3D的融合案例分享
#鱼眼摄像头画面矫正及与3D融合 鱼眼摄像头是一种广角镜头,捕捉的视频画面呈现出弯曲或球形。通过鱼眼矫正算法,可以将鱼眼相机拍摄的视频转换为更接近于标准透视的视频,使用户能够直接获得更自然的视频效果。 经过鱼眼矫正后的实时视频,适用于与3D场景实时融合,即视频孪生 = 视频+数字孪生。 视频孪生是现阶段数字孪生的天花板。将分散、割裂的实时视频在数字孪生世界中做三维还原,虚实共生,虚实互补,为用户提供立体、直观、实时真实的动态的系统。只有通过动态的视频,才能实现真正的虚实共生。
358 0
下一篇
无影云桌面