实验验证
实验中使用的所有自动驾驶汽车都是基于同一类型的普通乘用车。这些车载自动驾驶系统中的基于效用的模块化规划器已在多个百万人口级别的城市进行了严格的道路测试和广泛的验证。实验中研究者选取了三个基准方法作为参照对象:
(1)在传统端,nuScenes 数据集评分(NDS)(Caesar et al., 2020)将 3D 物体检测的几个传统评分结果结合到一个单一的性能分数中;
(2)SDE 距离加权平均精度(SDE-APD)(Deng et al., 2021)以自动驾驶车辆为空间中心视角的方式更多地关注自动驾驶车辆附近的感知误差(支撑距离误差);
(3)PKL(Philion et al., 2020)则作为自动驾驶车辆基于行为变化指标的代表。
人工合成数据测试
第一组实验的目标是获得各种评测方法对常见感知噪声类型在噪声可控条件下的反应的一些理解。数据集是从真实世界中收集和精心选择的复杂道路测试场景生成。共有 1000 个 5s 长的交通场景,每个场景交通参与者数量在 30-500 之间,含有由专业人员标注的感知真值。
实验中考虑了如下常见类型噪声:
误检(假阳性)错误是在以自动驾驶车辆为中心的一个 70x30 米的矩形范围里随机加入 “幽灵” 车辆,而这些车辆的其他运动信息从自动驾驶汽车的运动信息通过随机扰动添加。
漏检(假阴性)错误是通过以一定的概率(即漏检率)随机从真值结果中移除物体来实现。
其他类型的感知噪声(速度,位置,朝向,大小等误差)则通过直接向原始真值里添加高斯随机噪声实现。
在上述的不同强度噪声下各个评估指标的结果如下图所示:
横轴为噪声强度,左纵轴为 NDS 和 SDE-APD,右纵轴为 PKL 和 TIP。在一些情况下,一旦噪声达到一定水平, NDS 就会饱和(比如在速度噪声上)。同理,包含大量人工设计的 SDE-APD 也在不同的噪声强度下表现出了大量的非线性(比如速度噪声上)。而 TIP 和 PKL 没有依赖人工设计,表现出的灵敏度在各种噪声强度区间里相对都比较一致。
研究者也单独考察了一个如下图所示的一个具体场景。
在这个场景里,x 轴上有三个物体:1)一个漏检的静态物体(坐标为 x);2)一个静态物体在 x=50m;3)自动驾驶车在 x=0 以大概 14m/s 的速度向 x 轴正前方前进。有两个不同的规划器参与评测:1)AV-1(加速剧烈变动厌恶型)针对驾驶舒适性做了优化(最大刹车加速度为 -4m/s²);2)AV-2(碰撞厌恶型)针对安全性做了优化(最大刹车加速度为 -6m/s²)。
二者最小刹车距离分别为 30m 和 20m。在这个情况里,对 AV-1 规划器,TIP 认为最关键的误检发生在 30m,因为障碍物低于这个距离时即使能成功检测到碰撞也无法避免,因此恰好在最小刹车距离的物体误检是最严重的(刚好能避免的碰撞发生的地方)。其他判据都没有类似的特点和分辨能力,NDS 和 SDE-APD 都表现出各项同性(都认为发生在正后方和正前方同样距离的误检影响都一样),而 PKL 则认为正前方的漏检越近影响越大。
真实数据测试
第二组实验中,本文研究了部署在自动驾驶车辆上的真实感知模块的结果。以一个 3D 物体检测模型为例,该模型可以从激光雷达点云中预测物体的类别、位置、方向、速度和大小。TIP 独立于特定的检测器,可以应用于评估各种感知模型。
如下图所示为该车载模型在若干场景上用 PKL 和 TIP 评估的结果。
左图为这些场景的同场景 PKL 和 TIP 分数分布图,可以看到有大量的点汇集在横轴上,对应那些行为变化不大,但是却可能导致严重后果的感知错误。其中被红圈标记的场景如右侧两幅图所示。右侧第一幅图显示在感知真值输入时,自动驾驶汽车可以通过缓慢制动向前行驶,以保持与前面另一辆车的距离;然而当实际的感知输入包括噪声时(右侧第二幅图),自动驾驶汽车必须紧急制动,以避免与前方近距离的误检车辆(红色箭头所示)发生碰撞。
在这两种情况下,由于自动驾驶车辆速度缓慢并且正在制动(无论是缓慢制动还是紧急制动),行为的差异比较小(PKL=-0.802),但这个误检物体却导致了严重的后果:误检物体导致了紧急制动和虚拟碰撞(在真值感知输入下的行为和误检物体之间),这种差异被 TIP(TIP=-115.42)精确捕获。
真实场景的自动驾驶车辆的运动学数据为(a=-0.36m/s², j=-0.72m/s³),噪声场景下为(a=-0.36m/s², j=-76.4m/s³)。而正常情况下的加加速度(jerk)一般不会超过 1m/s³。从系统的角度来看,这是一个严重的感知错误。由此可见,TIP 能够捕捉到被其他指标所忽略的对自动驾驶车辆规划过程有重要影响的感知噪声。
为了进一步证明所提出的方法在场景层面的合理性,本文还实施了一套类似于(Philion et al, 2020)中的主观评估。为此,研究者收集了 258 对具有上述感知模型实际感知噪声的场景,并检查 TIP、PKL、SDE-APD 和 NDS 在相对严重程度上是否存在分歧(即一个评估方法认为场景 A 的感知误差比场景 B 的感知误差更大,而另一个评估方法认为相反)。
这些场景对由 10 个随机选择的人类驾驶员进行比较和评分,以决定从人类的角度来看一个场景对里哪个场景更糟糕。结果表明,相比其他三个基准评估方法人类驾驶员更倾向于和 TIP 保持一致的结果,如下表所示。
应用到神经规划器
除了具有明确定义效用函数的决策规划过程,研究者提出的方法也可以应用到一些端到端训练的神经规划器上,比如说类似(Bansal et al., 2019; Zeng et al., 2019; Philion et al., 2020)这样的带有车辆行为损失或者分布函数的规划器。作为示范,研究者采用了(Philion et al., 2020)里带有规划行为概率输出的神经规划器,并把输出行为的概率分布函数作为效用函数带入 TIP 中。
研究者使用 CBGS 检测器(Zhu et al., 2019)在 nuScenes 数据集的 3D 检测任务上验证集上获得了如下的结果。
左图是每个测试场景里 PKL-TIP 结果的分布图。可以看到不少数量的点都在竖轴附近。其中一个点对应的场景显示在右侧的四幅图里:检测真值,CBGS 检测器结果,检测结果与真值之差,神经规划器输出(每种颜色代表某个时间点上规划的车辆位置概率,其中每个时间点上概率最大的若干位置被置为 100% 饱和度方便可视化)。
在该场景里,两种输入下(考虑车辆运动学和动力学的约束后)最优的选择都是倾向于停留在原地。因此 PKL 直接计算原始结果里所有位置的分布偏差会认为行为差异很大,而 TIP 只考虑车辆实际会执行的行为,因此认为这个具体情况下感知噪声的影响不大。
TIP 还能用来直接评估每个场景里具体物体漏检和位置上出现误检的影响,如下两图所示。
本图展示了车辆漏检严重程度的可视化结果。每个环境车辆都被单独从真值结果里移除然后计算场景的 TIP 并把结果分数作为不透明度绘制到该车辆上(所有环境车辆都为红色)。可以看出大部分被 TIP 认为发生漏检后果严重的环境车辆都是那些在自动驾驶车辆(AV)行进路径上可能与之发生交互的车辆(而不是简单的距离最近的车辆)。
本图展示了车辆误检严重程度的可视化结果。任给自动驾驶车辆(AV)附近的一个位置,一辆被误检的车被添加到真值结果里然后计算场景的 TIP,并把结果分数作为不透明度绘制到该位置上(用红色标记)。可以看出大部分被 TIP 认为发生误检后果严重的位置都是那些在自动驾驶车辆行进路径上可能与之发生交互的地方。
总结
本文提出了一个系统性框架,从自动驾驶决策规划的视角来评估感知结果里的噪声对自动驾驶影响的严重程度。该方法通过利用基于效用的规划器的特性,有效地识别了在期望效用最大化的背景下可能导致决策规划过程发生重大改变的感知噪声。在人工合成数据和真实数据上进行的大量实验表明,该方法能够有效发现传统的感知评估指标以及只关注自动驾驶最终行为的方法无法区分的感知错误。
依托上述这种前沿、高效的感知评测方法,充分考虑微小感知噪声对规划结果的影响,并采用系统化的方法对感知能力进行评估和优化,轻舟智航提供的自动驾驶通用方案感知能力正在得到飞速提升。
关于轻舟智航
基于高效的数据利用、超融合感知和独创时空联合规划等核心技术,轻舟智航在 2022 年 11 月发布了「轻舟乘风」高阶辅助驾驶解决方案,目前已构建起「高速 + 城区」NOA 的完整产品矩阵,并顺利完成 2000 万级人口城市复杂路况挑战。
今年 3 月,轻舟智航首发基于单征程 5 芯片的城市 NOA 版方案,通过对超融合感知大模型和多任务模型在架构和性能方面的极致优化,轻舟智航实现了更高的算力使用率,以更少的模型数量完成更多任务,最大限度地降低了算力需求,从而用单颗征程 5 芯片也能良好完成复杂场景下的感知和决策规划,突破城市 NOA 性价比的天花板。
而在 4 月的上海国际汽车工业展览会上,轻舟智航还发布了基于环视相机的 6V1R 视觉方案的高速 NOA 方案,并实现落地体验。该方案可实现行泊一体,通过复用传统的泊车传感器,提高硬件使用效率,进一步降低了高速 NOA 的硬件成本。
这证明了轻舟智航行业领先的工程化能力,而这也得益于其背后的经验丰富的技术团队以及体系化的工程治理团队;车规量产级、灵活配置的硬件方案;完善的自动驾驶系统功能安全开发流程,不断有效加速轻舟产品在多车型、多场景中的落地。
行业的发展往往与技术的进步息息相关,当城市 NOA 处在量产落地的「前夜」,类似「感知模块测评」这样的前沿议题将成为决定自动驾驶方案性能和安全性的关键因素,也更加值得进一步的探索。
参考文献
Kant, I. Critik der reinen Vernunft. Johann Friedrich Hartknoch, 1781.
Osborne, M. and Rubinstein, A. A Course in Game Theory. MIT Press, 1994.
Philion, J., Kar, A., and Fidler, S. Learning to evaluate perception models using planner-centric metrics. In CVPR, 2020.
Deng, B., Qi, C. R., Najibi, M., Funkhouser, T., Zhou, Y., and Anguelov, D. Revisiting 3D object detection from an egocentric perspective. In NeurIPS, 2021.
Caesar, H., Bankiti, V., Lang, A., Vora, S., Liong, V. E., Xu, Q., Krishnan, A., Pan, Y., Baldan, G., and Beijbom, O. nuScenes: A multimodal dataset for autonomous driving. In CVPR, 2020.
Zhu, B., Jiang, Z., Zhou, X., Li, Z., and Yu, G. Class-balanced grouping and sampling for point cloud 3d object detection. arXiv preprint arXiv:1908.09492, 2019.
Bansal, M., Krizhevsky, A., and Ogale, A. ChauffeurNet: Learning to drive by imitating the best and synthesizing the worst. In Robotics: Science and Systems (RSS), 2019.
Zeng, W., Luo, W., Suo, S., Sadat, A., Yang, B., Casas, S., and Urtasun, R. End-to-end interpretable neural motion planner. In CVPR, 2019.