3D多目标跟踪新思路!基于多传感器融合的加权几何距离关联方法

简介: 在自动驾驶领域,3D多目标跟踪(MOT)作为整个感知系统中的关键任务之一发挥着重要作用,它确保了车辆导航和运动规划的高效和安全。大多数现有的MOT方法基于检测,即通过检测跟踪(TBD),并且仅使用单个深度传感器,如激光雷达来检测和跟踪目标。然而,长距离的非常稀疏的点云导致这些方法无法生成非常精确的检测结果,从而影响跟踪结果。因此,本文提出了一种基于传感器融合的3D MOT方法,利用激光雷达和摄像机的检测结果。

在自动驾驶领域,3D多目标跟踪(MOT)作为整个感知系统中的关键任务之一发挥着重要作用,它确保了车辆导航和运动规划的高效和安全。大多数现有的MOT方法基于检测,即通过检测跟踪(TBD),并且仅使用单个深度传感器,如激光雷达来检测和跟踪目标。然而,长距离的非常稀疏的点云导致这些方法无法生成非常精确的检测结果,从而影响跟踪结果。因此,本文提出了一种基于传感器融合的3D MOT方法,利用激光雷达和摄像机的检测结果。首先,论文组合并匹配2D和3D检测的结果。其次,使用卡尔曼滤波器预测目标状态。接下来,为了关联预测和检测结果,论文设计了一种基于加权几何距离的数据关联方法。最后,通过卡尔曼滤波器更新匹配检测和预测结果。通过定量评估和测试验证,证明论文提出的基于传感器融合的3D MOT方法确实优于目前阶段的大多数3D MOT算法。


领域相关介绍



在自动驾驶领域,3D MOT扮演着重要角色整个感知系统中的关键任务,确保车辆导航和运动规划的高效和安全。随着自动驾驶技术越来越普及,并在城市智能交通系统中发挥越来越重要的作用,安全已成为首要问题。通过使用目标检测和多目标跟踪来更好地了解车辆周围环境,并了解和预测周围目标的轨迹,车辆可以更安全地驾驶。


自动驾驶感知系统通常分为两个重要任务:检测和跟踪。最近有一些端到端框架同时处理这两个部分,但这些方法的性能和稳定性仍在讨论中。在这一阶段,基于检测的跟踪仍然是3D MOT的主要方法,由于近年来3D目标检测算法(如PointRCNN、PointRGNN和CenterPoint)的巨大改进,跟踪结果也得到了极大改善。然而,这些结果的准确性仍然受到传感器本身特性的限制。在3D MOT中,通常使用激光雷达(光检测和测距)作为传感器来获取数据。然而,由于线束和距离的限制,激光雷达获得的点云在长距离(>80m)处通常非常稀疏,因此对象的尺寸或标签通常难以准确检测和定位。另一方面,由于摄像机的像素分辨率非常高,基于图像的检测可以获得高质量的检测结果,即使距离很长。此外,该阶段的2D检测器可以很好地解决遮挡问题。因此,研究基于传感器融合的3D MOT方法具有重要意义。


在3D MOT的这一阶段,存在各种挑战,例如:目标之间的遮挡和长距离丢失目标的问题。[10]中提出的多传感器融合方案可以在一定程度上解决这些问题。此外,合理的运动模型设计[11]也是一个很好的解决方案。3D MOT中的另一个挑战是如何在预测状态和观测数据之间关联数据;即,通过建立观测状态量和预测状态量之间的成本函数来找到它们之间的对应关系。大多数3D MOT框架倾向于使用3D框之间的联合交集(IoU)进行数据关联,这确实是一种简单有效的方法。然而,通过这样做,很容易忽略其他功能之间的连接,此外,可能会出现一些没有重叠区域的情况。因此,还提出了一些基于欧几里得距离[14]或马氏距离[13]的数据关联方法,结合匈牙利算法[15]或贪婪算法[16]。


本文提出了一种基于传感器融合的加权几何距离数据关联3D MOT方法(WGDMOT)。具体而言,首先融合了激光雷达和摄像机的3D MOT检测结果,并使用加权几何距离作为数据关联方法。该方法以Avergemot为基线,首先使用透视投影将3D检测投影到2D图像平面上,然后使用2D IoU对2D和3D检测进行匹配和融合,以找到匹配良好的3D检测和不匹配的2D检测。最后,使用当前轨迹上的卡尔曼滤波器,使用先前轨迹获得预测的3D对象。使用论文提出的基于加权几何特征代价距离的数据关联方法在3D空间中匹配预测结果和匹配检测结果。然后,来自第一步骤的不成功预测成为2D图像平面中第二数据关联的第二步骤的输入,最后,基于数据关联结果更新状态。


论文在NuScenes上进行性能评估,提出的方法显著提高了baseline EagerMOT(尤其是在行人跟踪上)!


2D和3D目标跟踪



2D跟踪任务


在这个阶段,2D MOT的大部分研究工作仍然集中在基于检测的跟踪,其中两个最重要的方面实际上是 检测和数据关联方法。一些方法的想法是寻找更好的检测器,基于RCNN家族、YOLO、SSD和RetinaNet等检测器,很明显,在不进行很大改变的情况下,可以超越许多以前的2D MOT方法。其它方法侧重于设计数据关联的鲁棒成本距离,如[27,28]使用匈牙利语进行数据关联,以及[16]使用贪婪算法。随着深度学习研究的进一步发展,研究人员也开始不仅仅关注单个检测,还有一些方法提出了端到端[19,29]方法,将检测和跟踪作为一个整体进行训练,然后输出结果。然而,鲁棒性和泛化仍在讨论中。


3D跟踪任务


大多第一批3D MOT方法基于传统的聚类检测方法,例如使用下采样、接地点分割和非接地点聚类。然而,这些方法非常容易受到噪声的影响,因为它们依赖于边界盒过程的计算来获得检测结果。此外,边界框的尺寸的精度和估计是非常真实的值,具有相对较大的误差。随着端到端检测方法[7,31]的出现及其有效性的不断提高,3D MOT的检测组件已逐渐被端到端方法取代。最近,[32]提出了一个非常简单的3D MOT框架,AB3DMOT[32],该框架使用3D IoU作为数据关联的成本距离,能够实现非常高的FPS。然而,该方法非常依赖于3D检测器的结果,并且容易被遮挡。随后,[33]提出使用马氏距离代替3D IoU作为基于AB3DMOT[32]的成本距离,从而解决了不存在重叠区域的情况。这是对AB3DMOT[32]的一个相对较大的改进,但仍然受到3D探测器的限制。由于单传感器检测总是存在相对较大的局限性,[17]分别提出了激光雷达和摄像机的融合方法,建议将预测轨迹和融合检测结果按比例距离关联起来。然而,马氏距离和标度距离都没有考虑不同变量之间的加权关系。因此,论文提出了一种新的代价距离,它考虑了不同几何特征之间的加权关系,可以有效地提高小目标的跟踪性能。


论文方法



论文提出了基于最近Eargemot[17]架构的WGFMOT方法。方法首先融合2D和3D检测的检测结果,然后基于融合结果和卡尔曼滤波器预测的结果执行两阶段数据关联。数据关联的第一阶段在3D空间上执行,其中论文建议使用加权几何特征作为数据关联的成本距离,第二阶段在2D图像平面上执行,使用投影变换和2D IoU进行二次匹配,最后更新跟踪轨迹。该方法能够充分利用相机和激光雷达的检测结果:


(1)相机可以提供比较的2D检测结果,从而减少3D检测中错误检测的机会;

(2) 激光雷达可以提供更精确的3D检测对象位置信息;

(3) 使用提出的加权几何特征距离,可以考虑不同几何特征之间的加权关系,以实现更好的跟踪性能;


论文使用centerpoint作为3D检测器!


融合通常分为前融合和后融合,其中前融合是使用不同传感器数据的组合作为输入,以便输出检测结果。在论文提出的方法中,使用了后融合,它融合了不同检测的结果。这种融合方法比前融合更简单、更有效,并且不需要对原始数据进行额外的变换。


如下图所示,基于来自截面A的检测结果D2d和D3d,首先将3D边界框投影到2D图像平面上。然后,计算用于匹配的2D IoU,并将匹配结果mD3d输出到第一数据关联部分,而将不匹配检测uD2d输出到第二数据关联部分。这样做部分解决了FP(假阳性)的问题,因为3D检测器比2D检测器更容易出现错误检测。

640.png



状态初始化和预测


MOT本质上是一个多变量状态估计问题,即预测通过使用前一个目标,确定当前阶段目标的状态和运动模型。为了简化论文的模型,建议使用常数速度模型(CA)和卡尔曼滤波器(KF)[34]预测状态St(xi,yi,zi,li,wi,hi,thetai,vxi,vyi,vzi)的三维对象。其中t表示第t帧,i表示该帧的第i个对象。


数据关联


论文提出的方法中,数据关联分为两个阶段。第一阶段是在3D空间中,使用提出的加权几何距离计算成本,第二阶段是在2D图像平面中,使用匈牙利算法的2D IoU。

第一阶段,从步骤B获得融合检测结果mD3d,在步骤C中,获得预测结果P3d,为了合理计算匹配相关性,设计了用于计算检测和预测之间相似性的加权几何距离:

640.png


EagerMOT [17]提出的缩放距离考虑了dimensions和坐标具有相同的权重(重要性),但实际上不同跟踪的属性不同,因此dimensions和坐标应不能承受同等的权重。论文提出的成本距离通过调整w1、w2和w3的大小来调整它们的重要性,这导致小目标跟踪的显著改进。成本距离也优于基于3D IoU和基于欧几里得距离的方法。通过执行此步骤,论文获得了关联的检测和预测结果(Di3d,Tj3d),其被输入到更新阶段,以及没有关联的预测结果uT3d,其被输入数据关联的第二阶段:


第二阶段,未成功匹配的D2d在第一阶段中进一步与uT3d输出匹配,这通过使用简单的2D IoU和匈牙利算法将uT3d投影到2D图像平面上来执行。该过程主要用于对FN(假阴性)情况执行附加关联。该步骤可以解决部分遮挡导致的漏检情况,进一步提高跟踪的稳定性,匹配预测2mT3d被输出到更新阶段。


状态更新


给定由数据关联驱动的检测和预测的匹配对,可以使用卡尔曼滤波器来更新该帧中的轨迹,主要更新状态量为[x,y,z,θ,l,w,h,vx,vy,vz]。


实验评估



论文基于NuScenes评估了所提方法,NuScenes包含1000个场景,每个场景长20秒,并使用具有23个类和8个属性的3D边界框进行完整注释。数据集使用2Hz的频率对关键帧(图像、激光雷达)进行采样,并使用语义类别、属性(可见性、活动性和姿势)和矩形(包含x、y、z、宽度、长度、高度和偏航)为23个对象类别中的每一个对每个关键帧中的每个目标进行注释。


本文遵循NuScenes跟踪挑战,并通过以下指标评估:


AMOTA(平均多目标跟踪精度):主要评估指标(不同召回阈值下MOTA[35]指标的平均值)

AMOTP(平均多目标跟踪精度)

MOTA(多目标跟踪精度):这项措施结合了三个方面(误报、漏检目标和身份切换)

MOTP(多目标跟踪精度):注释边界框和预测边界框之间的未对齐

FP(误报数):误报总数

FN(假阴性数):假阴性(漏检)总数

ID(标识开关的数量):标识开关的总数

640.png


在行人追踪上加权几何距离加权系数的消融实验:

640.png


NuScenes数据集上不同数据关联方法的比较:


640.png640.png



参考



[1] Sensor Fusion Based Weighted Geometric Distance Data Association Method for 3D Multi-object Tracking.


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
5月前
|
存储 SQL 关系型数据库
HarmonyOS Next快速入门:RelationalStore关系型数据库
本课程《HarmonyOS Next快速入门》涵盖HarmonyOS应用开发中的关系型数据库使用,介绍基于SQLite的持久化存储、适用场景及开发实践,适用于教育与初学者。
209 0
|
4月前
|
缓存 Ubuntu 编译器
从源码编译安装gdal3.6.2库的操作指南。
以上步骤概要了从源码编译安装GDAL库的基本流程,实际操作中可能会遇到各种配置上的问题。如果在编译或安装过程中遇到错误,通常需要根据终端输出的信息来判断问题所在,并根据需要安装缺失的依赖库,或是调整编译参数解决问题。
344 0
|
10月前
|
存储 人工智能 自然语言处理
《数据孤岛:AI模型训练之殇,精度与泛化的双重困境》
在人工智能快速发展的今天,数据是模型的“燃料”。然而,数据孤岛现象——即数据因系统、管理和流程原因被孤立存储,缺乏有效整合——正严重阻碍AI的发展。据调研,40%的企业存在50多个数据孤岛,这一问题导致AI模型训练精度和泛化能力下降,影响从医疗诊断到自动驾驶等多领域的应用效果。解决数据孤岛需要企业、科研人员及政府共同努力,通过统一数据标准、创新技术和完善政策,促进数据共享与融合,推动AI技术释放更大价值。
559 19
|
Linux Perl
xargs 的简介,使用场景以及例子
### xargs的简介 xargs命令是Linux系统中一个非常有用的工具,用于从标准输入或文件中读取数据,并将其作为参数传递给其他命令。它可以将标准输入的文本数据转换为命令行参数,从而实现批处理操作。xargs命令通常用于处理一行一参数的情况,可以将来自标准输入的参数转换为命令行参数。 ### xargs的使用场景 xargs命令在Linux系统中有着广泛的应用,可以方便地将标准输入数据转换为命令行参数,并传递给指定的命令处理。它简化了很多复杂的操作,对于批量处理文件、并发执行命令等场景提供了便利。以下是一些常见的使用场景: 1. **批量删除文件**:结合find命令,批量删除指
360 0
|
机器学习/深度学习 传感器 编解码
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
随着自动驾驶技术的发展,多目标跟踪已成为计算机视觉领域研究的热点问题之一。MOT 是一项关键的视觉任务,可以解决不同的问题,例如拥挤场景中的遮挡、相似外观、小目标检测困难、ID切换等。为了应对这些挑战,研究人员尝试利用transformer的注意力机制、利用图卷积神经网络获得轨迹的相关性、不同帧中目标与siamese网络的外观相似性,还尝试了基于简单 IOU 匹配的 CNN 网络、运动预测的 LSTM。为了把这些分散的技术综合起来,作者研究了过去三年中的一百多篇论文,试图提取出近年来研究者们更加关注的解决 MOT 问题的技术。
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
|
人工智能 搜索推荐 API
一键解锁:快速上手文心一言指令编程实践
【7月更文第18天】随着人工智能技术的飞速发展,对话式AI已经成为连接人与信息的新桥梁。百度的“文心一言”(ERNIE)作为国内领先的预训练语言模型,以其强大的语义理解和生成能力,正逐步改变我们获取信息和交互的方式。本文旨在为开发者提供一份快速上手指南,通过实际代码示例,深入浅出地介绍如何利用文心一言API进行指令编程,解锁AI对话新体验。
730 7
|
机器学习/深度学习 自然语言处理 PyTorch
|
传感器 机器学习/深度学习 编解码
面向工程,高精度高效率!Fast BEV:快速而强大的BEV感知基线(NIPS2022)
近年来,基于鸟瞰图(BEV)表示的感知任务越来越受到关注,BEV表示有望成为下一代自动驾驶车辆(AV)感知的基础。现有大多数的BEV解决方案要么需要大量资源来执行车载推理,要么性能不佳。本文提出了一种简单而有效的框架,称为Fast BEV,它能够在车载芯片上执行更快的BEV感知。为了实现这一目标,作者首先从经验上发现,BEV表示可以足够强大,而无需昂贵的基于transformer的变换或深度表示。
面向工程,高精度高效率!Fast BEV:快速而强大的BEV感知基线(NIPS2022)
|
Linux
探索Linux xargs命令:如何使用它来传递参数和执行任务
探索Linux xargs命令:如何使用它来传递参数和执行任务
598 1
|
机器学习/深度学习 算法 计算机视觉
多目标跟踪 | 评测指标
多目标跟踪器的性能需要某些指标来进行度量,目前使用比较广泛的评测指标主要有 Bernardin 等人定义的 CLEAR MOT 指标、Ristani 等人定义的 ID scores 指标以及最新的 Luiten 等人定义的HOTA 指标。
2871 2