高精地图落地 | InstaGraM：实时端到端矢量化高精地图新SOTA！-阿里云开发者社区

摘要

构建包含几何和语义信息的轻量级高精（HD）地图对于自动驾驶的大规模部署至关重要。为了从车辆捕获的一组图像中自动生成此类地图，大多数工作都将此映射表述为分割问题，这意味着需要进行大量的后处理以获得最终的矢量化表示。替代技术能够以端到端的方式生成HD地图，但依赖于计算昂贵的自回归模型。为了将基于相机的应用水平提高到一个适用的水平，论文提出了InstaGraM，这是一个快速的端到端网络，通过地图元素的实例级图形建模生成矢量化的高精地图。论文的策略包括三个主要阶段：俯视图特征提取、道路元素的顶点和边缘检测，以及转换为语义向量表示。在自上而下的特征提取之后，利用编码器架构来预测道路元素的一组顶点和边缘图。最后，通过注意力图神经网络将这些顶点与边缘图相关联，生成语义矢量化地图。论文提出回归距离转换地图，因为它们在顶点之间提供了强大的空间关系和方向信息，而不是依赖于普通的分割方法。在nuScenes数据集上的综合实验表明，InstaGraM比HDMapNet高13.7mAP，并实现了与VectorMapNet相当的精度，推理速度提高了5倍。

总结来说，本文的主要贡献如下：

论文提出了一种新的地图元素矢量化折线的图形建模，该模型将几何、语义和实例级信息建模为图形表示；
在提出的图形建模的基础上，论文提出了InstaGraM，这是一个端到端的矢量化高精地图学习网络，旨在实现实时性能。

方法

如图2所示，论文提出了一种端到端网络，用于从安装在车辆上的一组摄像机计算BEV矢量化高清地图。为了表示道路元素（即车道分隔线、人行横道和道路边界），HD地图通常由二维折线顶点及其实例级邻接连接组成。为了获得这种向量表示，先前的工作依赖于分割预测和繁重的后处理[23]，或以其高计算成本而闻名的自回归模型[28]。相比之下，论文提出了一种基于神经网络和GNN的组合的更轻的流水线，能够直接预测一组顶点及其相邻性。论文的方法有三个方面。首先，类似于HDMapNet[23]，利用基于MLP的方法，通过EfficientNet[43]，从从摄像机拍摄的每个图像中提取的CNN特征构建统一的BEV特征图。从该BEV特征图中，两个CNN解码器提取观察到的道路元素的顶点和边缘图。最后，这些顶点及其局部边缘响应被馈送到注意力GNN，以学习语义类和顶点之间的连接。

神经视角转换

论文的高精地图估计网络的第一个阶段是通过组合CNN特征[43]，从摄像机在给定时间捕获的每个图像中提取自上而下的BEV特征图。为了与基线进行公平比较，论文采用了简单的神经视角变换，通过简单的MLP将透视图像素和BEV像素关联起来。有关提取该特征图的更多信息，请参考[23]。

元素检测头

从自上而下的特征图中，论文使用两个CNN解码器提取HD地图元素的顶点和边缘。这两个分量在光栅化BEV空间中被预测，类似于分割任务。顶点解码器采用[11]中的感兴趣点解码器，并提取BEV像素中每个局部非重叠网格处的可能位置热力图。在通道方向的softmax之后，去除背景维度，并将顶点热力图从重塑为。与顶点解码器并行，边缘图解码器预测距离变换图D（通道数位3），这3个通道指示地图元素的类别的数量。这种距离变换的边缘映射[4]隐式地提供了顶点之间的空间关系以及从[16，26，27]中得到的映射元素的方向信息。论文在后续章节进一步证明，作为边缘映射的距离变换表示在实例级关联中起着重要作用。论文在最后一个Conv层之后应用ReLU和阈值来预测光栅化BEV图像中从0到10的距离值。

通过GNN关联

从元素检测器头部提取的两个分量通过GNN相关联，其中所有顶点在整个注意力方案中相互作用[12，44]。这使得论文的网络能够基于各种属性（包括位置、距离值的隐式边缘图和类别）来推理地图元素之间的点级和实例级关系。

图嵌入：论文结合顶点位置和距离变换映射来形成初始图嵌入。首先从顶点位置热力图中的channel-wise softmax中提取光栅化BEV坐标中每个顶点的位置及其各自的置信度。论文只在每个8*8网格单元中提取一个具有最大置信度的独特顶点位置，这与非最大抑制类似。提取后，通过正弦位置编码函数对第i个顶点位置vi进行编码，以将其放大为高维向量[32]。这种位置编码进一步由附加的浅层MLP支持。为了补充顶点vi的位置信息，论文另外包括局部方向信息作为与同一网格单元对应的距离变换块的嵌入。然后，初始图由D维嵌入组成，结合了顶点位置及其方向局部信息，可以公式化为：

这使论文能够在整个注意力方案中基于其顶点和边缘表示来关联多个图嵌入。

来自SuperGlue的注意力信息传递[40]：从初始图开始，其中节点包含顶点位置和边缘图嵌入作为高维向量。此初始图形具有双向边，将顶点i连接到所有其他顶点。为了进一步增强节点并找到顶点的最终边缘，论文将初始图传递给注意力图神经网络，并通过信息传递来传播该图[40，45]。目标是找到顶点的最终双向边作为地图元素的实例级信息。论文将初始图输入注意力图神经网络，该网络通过由MLP和多头自注意（MSA）组成的消息传递聚合图嵌入：

方程2中的自注意力和聚合基于中嵌入的所有图形嵌入的空间和方向外观提供了它们之间的交互。具体来说，每个顶点节点都会关注所有其他节点，以找到将出现在地图中的下一个可能顶点。在L层注意力聚集之后，获得了分类分数和图形匹配嵌入：

邻接矩阵：论文通过计算图G的节点之间的得分矩阵来预测最优边。节点i和j之间的邻接得分可以计算为嵌入向量的余弦相似度：

损失

论文将整个网络设计为可区分的，允许我们以全监督的方式对其进行训练，同时在多个分支处组合损失。对于元素检测头的监督，使用cross-entropy with softmax loss和L2 loss分别用于顶点位置热力图和距离变换图：

来自顶点位置热力图预测的坐标可能与GT顶点坐标不完全对齐，特别是在训练的早期阶段，导致GT邻接和类标签的模糊。为了解决这一问题，论文找到了GT顶点和预测顶点之间的最近对，以为图形神经网络、邻接矩阵和类预测的输出提供GT。获得距预测顶点i最近的地面真值顶点，该顶点使具有阈值D0的倒角距离成本最小化：

没有GT对的预测顶点落入dustbin vertex作为GT邻接（即图3中的v2）。由于地图的矢量化表示具有双向边缘，论文计算了正向和反向相邻损失的负对数似然：

论文进一步监督具有负对数似然的图神经网络进行顶点分类。通过这种监督，论文的图神经网络可以推理除了实例级信息之外的顶点标签类别：

最终损失函数如下：

实验

论文在nuScenes数据集上展开实验。

结果

与基线方法的比较：论文与最先进的矢量化高精地图学习管道HDMapNet[23]和VectorMapNet[28]进行了比较。HDMapNet预测了三种类型的分割地图——语义分割、实例嵌入和方向预测——并利用启发式后处理生成矢量化地图元素。VectorMapNet利用DETR[7]中的transformer解码器来预测地图元素，并利用自回归变换器解码器生成地图元素的详细几何形状。论文使用EfficiencyNet-B0和EfficienceNet-B4来训练和评估InstaGraM，这两个主干分别与HDMapNet和VectorMapNet（ResNet-50）相当。表1显示，在相机模态下，与HDMapNet相比，InstaGraM的mAP高13.7，推理速度快33倍，与VectorMapNet相比mAP高0.6，推理速率快5倍。在这两个基线中，激光雷达模态提供了道路边界的明确3D位置，从而提高了AP。然而，论文的相机模态下的模型优于LiDAR模态下的HDMapNet和VectorMapNet，特别是在边界类上的观察。论文观察到距离变换提供了强大的空间关系来定位地图元素。此外，特别是与VectorMapNet相比，InstaGraM在训练中以更快的收敛时间实现了具有竞争力的性能。论文在表2中进一步报告了推理内存消耗。强调HDMapNet和VectorMapNet与实时性能不匹配，而InstaGraM不仅优于它们，而且在实时自动驾驶任务的计算内存和时间方面实现了更适用的性能。

定性结果：图4可视化了矢量化的HD地图预测。这表明InstaGraM在各种天气条件下都能很好地推广。InstaGraM以端到端的方式计算复杂地图元素的语义和实例级信息，而无需进行后期处理或大量计算。图3中所示的图形建模策略能够准确快速地预测地图元素。距离变换和位置嵌入提供了通过图形神经网络关联的精确基元，能够预测各种曲线形状，特别是在图3的第一行和第二行。前3行进一步表明，InstaGraM能够均匀地检测被遮挡的地图元素的顶点和连接。

消融实验：论文进一步对图嵌入的设计选择进行消融研究，如表3所示。发现从表3中的A和C中，位置嵌入发挥了重要作用，因为距离变换分布在整个顶点中看起来是相同的（见图1）。它提供了图形神经网络，可以在其中查找要关联的附近顶点。距离变换嵌入通过提供顶点的强方向信息而进一步改进（参见表3中的B和C）。

距离变换：论文通过与类似于PolyWorld中使用的嵌入的视觉描述符嵌入进行比较，进一步分析了距离变换嵌入[52]。PolyWorld从与预测顶点坐标相对应的图像特征图中提取向量，并将其称为“视觉描述符”。由于视觉BEV特征图的空间大小与感兴趣点解码器传递的顶点热力图的空间尺寸不匹配，因此论文对特征图进行插值以对齐空间尺寸。论文从对应于顶点坐标的插值特征图中获取视觉描述符，然后编码以形成图嵌入。图5比较了InstaGraM在不同数量N个顶点提取上使用不同图形嵌入（一个使用距离变换嵌入（DT），另一个使用视觉描述符嵌入（VD））的性能。两种设置均采用位置嵌入。尽管来自直接特征地图的视觉描述符包含场景的高级语义信息，但距离变换提供了地图元素的强先验性，从而获得了更好的性能。论文进一步强调，通过添加距离变换回归的辅助任务，它隐式地为网络提供了地面真实图的几何结构，以快速收敛的方式优于基线。

结论

论文提出InstaGraM，一种适用于实时自动驾驶的端到端矢量化高精地图学习管道。论文将HD地图元素的折线建模为具有顶点和构成实例级边的邻接矩阵的图形。与需要启发式后处理或大量计算成本的先前工作相比，InstaGraM实时计算地图元素的折线，与最先进的方法相比，实现了更好的性能。

参考

[1] InstaGraM: Instance-level Graph Modeling for Vectorized HD Map Learning

原文首发微信公众号【自动驾驶之心】：一个专注自动驾驶与AI的社区（https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA）

高精地图落地 | InstaGraM：实时端到端矢量化高精地图新SOTA！

摘要

相关工作