2023 年,城市 NOA 迎来爆发元年。围绕城市 NOA 的讨论,成为了今年自动驾驶领域最受关注的话题之一。
当众多车企全力推进城市 NOA 的量产落地,重感知、去高精度地图已成为业内公认的趋势。但在实际的车辆运行中,面向复杂多变的路交通环境,在车端部署城市 NOA 需要精准高效的感知融合算法,以满足车规级计算平台的适配,有效解决复杂路况中的各种长尾问题。
这意味着,自动驾驶的感知模块将要迎接更高的挑战,而其中的一个难点在于如何评估「感知结果」与「自动驾驶系统决策规划结果」之间的关系。
众所周知,自动驾驶感知模块的高效评测是自动驾驶技术研发过程中一个非常重要的部分,它直接影响整个智能系统的安全性和可靠性。此前业界的大多数方法仅针对感知模块进行评测,但忽略了感知模块对自动驾驶决策规划行为的整体影响,目前仅有 Waymo、NVIDIA 和多伦多大学对该问题进行了有效探索。
轻舟智航是一家行业领先的自动驾驶通用解决方案公司,2019 年 3 月于硅谷成立,并于同年 11 月落地中国创立总部,迄今已积累了全栈自研的核心技术体系。轻舟智航在去年完成转型,聚焦以中高阶辅助驾驶解决方案服务车企。
在最近的一篇 ICML 2023 论文中,轻舟智航创新地提出了一套考虑全局影响的感知模块高效评测和理论分析框架,极大地推动了自动驾驶领域这一基础性问题的突破。这种从规划器视角出发的框架提供了一种新的方法来评估感知模块对整个自动驾驶系统的影响,从而改进设计和优化感知模块,帮助提高自动驾驶系统的性能和安全性。
论文链接:https://arxiv.org/pdf/2306.07276.pdf
ICML(International Conference on Machine Learning,国际机器学习大会),与 NeurIPS 和 ICLR 一起,被公认为机器学习和人工智能研究中具有高度影响力的三大主要会议之一。目前,ICML 为 CCF(中国计算机学会)推荐的 A 类会议,同时也是 Core Conference Ranking 的 A* 类会议,被视为推动机器学习发展的重要会议。
研究背景
自动驾驶领域在工业界和学术界在近期均得到了迅速发展。车载感知模块是自动驾驶汽车获取动态环境信息的重要来源。传统的计算机视觉感知任务(如检测、分割、跟踪等)虽然可以直接套用来评价感知模块的性能,但是这些评价方法忽略了感知模块在自动驾驶系统中对系统整体的影响。
事实上,感知模块结果中相似的错误对决策规划控制的影响可能大相径庭:例如同样是静态障碍物的漏检,这种错误发生在正在向前行驶的自动驾驶车辆前方时相对于发生在后方要严重得多。因此整个领域都非常需要一个高效和有效的工具来评价感知模块性能对整个自动驾驶任务的影响。
之前试图解决这个问题的工作大多从自动驾驶的轨迹输出来试图衡量感知误差对自动驾驶系统的影响。一个常见的方法就是通过计算自动驾驶车辆的决策规划在真值和实际感知输入作用下得到的结果的区别来判断影响大小。但是自动驾驶车辆最终行为的改变与最终结果之间的相关性在不少情况下都比较弱,在某些场景下甚至呈负相关,如下图所示:
图中红色箭头表示自动驾驶车辆决策规划在感知真值输入下得到的最优动作轨迹,灰色箭头表示在错误感知下的最优动作轨迹。彩色和灰度的路障分别表示障碍物的真实位置和错误感知位置。在(a)情况下,自动驾驶汽车必须绕行较大的弯路,以绕过错误感知的路障。而对于(b), 自动驾驶车辆虽然需要稍微向右做微小绕道,然而它最终在实际世界里撞上了路障。在这种情况下,尽管行为的改变远远小于(a),但结果却明显更糟(“撞到一个物体” vs “绕了远路”)。
在(c)中,不论是向左还是向右绕道,任何一种方式的结果对 “向前移动” 这一目的来说都没有太大区别;但就时空轨迹而言,行为的变化非常大。在(d)场景里,道路两侧各有一个被误检的路障,但并不会与前进通过的车辆发生碰撞(虽然车辆经过时路障距离车辆很近);在这个有误检的情况下自动驾驶车辆仍然决定保持与真实情况相同的运动继续匀速前进:在感知误差存在的情况下,自动驾驶汽车的最终行为没有改变,但经过两个近距离物体的成本实际上已经改变了决策规划过程,而这些额外的隐藏成本将无法通过仅关注自动驾驶车辆结果行为变化的感知评价指标体现。因此,由于感知错误导致的车辆行为变化并不总是与错误导致的实际后果相关。
之前有限的几个从自动驾驶系统角度评价感知模块性能的工作大多采用类似这样的启发式方法。这些方法会将一些人工总结的先验知识整合到评价系统中,如(Philion et al.,2020)假设感知误差的造成的后果与其导致的规划器输出的时空轨迹变化直接相关,并提出用 KL 散度作为评价指标来衡量后果;但由于没有考虑实际的环境背景,因此并不能准确反映真实交通环境里输入噪声导致的实际代价。
本文希望强调的是通过规划过程来理解感知误差对自动驾驶系统影响的必要性:只有从决策规划的角度,通过理解感知输入噪声对自动驾驶系统造成的实际后果才能有效评估感知误差带来的影响。这种完全通过实际观察者(规划器)的视角来评估待考察事物(感知误差)属性的方法,与经典哲学理论里的先验唯心主义论(Kant, 1781)一致,因此该方法被命名为规划器先验唯心论(Transcendental Idealism of Planner / TIP)。
目前对自动驾驶决策规划过程的研究工作大致可以分为两类,其一是基于效用的方法,其二是非基于效用的方法。前者通过对自动驾驶要实现的具体目标(向目的地接近,遵守交通规则,平滑的车辆运动等)编码来构建一个描述行为与收益的目标函数,并通过求最优化解作为最终的决策规划结果;后者则利用海量数据和深度学习的拟合能力,直接将原始或者被预处理过的传感器数据直接映射为自动驾驶车辆的控制信号。本文重点在探索感知噪声对决策规划的影响,因此主要关注基于效用的规划研究。
理论分析
基本概念
这篇工作首先给出了经典的期望效用最大化(Expected Utility Maximization / EUM)框架(Osborne and Rubinstein, 1994)在 Hilbert 空间里的解释。EUM表示在任意时刻 t,智能体通过最大化效用函数的期望获得最佳动作 。
其中 表示 t 时刻智能体所有待考察的可行动作选项集合。表示 t 时刻环境状态随机变量(为环境状态的集合),效用函数 负责编码自动驾驶汽车应该实现的目标或奖励(例如及时到达目的地,尽量减少与其他物体碰撞的可能性,避免运动的急剧变化等等)。期望效用表达为:
是随机变量的分布函数,用于描述环境的不确定性(可视为感知模块对规划器的输入)。
为了深入了解环境状态描述(感知)输入中的噪声如何影响 EUM,研究者首先证明了当环境状态分布函数绝对连续(absolutely continuous),且其概率密度函数平方可积时,那么就可以找到一个双射(bijection)把这个概率分布 映射到一个在希尔伯特空间 里的元素 ,称为 的嵌套(embedding)。在这个时候,由于实际使用的效用函数都是定义在一个有界集合上的有界函数(因此平方可积),期望效用最大化可以写成
给定了 与 的双射关系,我们就可以在 Hilbert 空间里利用许多代数工具(如内积、正交、投影、子空间、零空间等)来分析感知结果噪声对自动驾驶规划的影响。
感知错误分析
假设 中每一个候选行为都有一个不同的效用函数,即对任意不同的 ,有
令 为 EUM 里在正确感知输入下的最优行为,则对任意,定义了行为方向,规划半空间为:
在这个定义下,当且仅当 ,即 时,真正的最优行为 会被认为优于 ,其中:
是给定环境状态 时的 偏好分数。
当实际的输入 和正确(真值)结果 有不同时(即 含有噪声时),偏好分数有可能发生改变。注意到这个误差可以分解为:
其中
是投影到与同方向的单位向量(称为行为方向)上之后的分量; 是投影到的正交补空间上的分量。可以看到偏好分数改变
完全由 决定,因此研究者定义 为规划关键误差(planning-critical Error / PCE), 为规划不变误差(planning-invariant Error / PIE)。以上讨论的示意图如下所示:
如左图所示, 定义了行为方向, 和 表示环境真值与噪声感知的嵌入; 表示感知误差,可以将其分解为规划关键误差(PCE) 和规划不变误差(PIE);阴影区域对应 。
如中图所示,一辆自动驾驶车辆在宽 6m 的道路上行驶,前方有个路障在 x 轴上,其真实分布值为 ,但感知认为他的分布位置为 ,此时自动驾驶车辆有两个选项,前进(红色箭头)和制动(灰色箭头),其效用函数分别为 和 (不管路障位置如何,制动的损失相同)。
在这种情况下, 与 显示在右上方,可以看到与具有相同的形状(相差一个负常数),且有 , 所在的子空间包含了所有不会影响到 EUM 的感知错误。
通过以上推导,可以得到如下结论:
并非环境状态估计或感知中的所有错误对自动驾驶车辆规划都有同等的影响。实际上,只有 PCE 会对 EUM 结果有影响,PIE 完全不会造成任何影响;
PCE 的影响既可能是负面的(让规划器低估正确行为选项的优势)也可能是“正面的”(让规划器高估正确行为选项的优势)。
这两个结论都是通过本文提出的理论框架下的分析得到的自然推论结果。
以上分析只是考虑了一个候选选项 ,当需要考虑整个候选选项集合 时,直接取所有偏好分数改变的最小值(即最大的负面影响)作为感知输入的噪声对决策规划影响的影响
实际计算时,一个偏好分数改变
可以分解为四个期望效用来计算。每一个期望效用可以利用随机采集的独立同分布样本通过无偏估计器
进行数值估计。可以证明,这样的估计方法可以由一致收敛界限(uniform convergence bound)保证指数级别的数值收敛速度。这是一个值得注意的结果,因为指数收敛速度只要求效用函数是有界的,至于效用函数的具体形式(保证了可使用任意函数形式的灵活性)和其中变量的维度完全没有任何限制(因此维度爆炸不会出现)。整个过程的伪代码如下: