基于强化学习的方法
近年来,强化学习(RL)的快速发展为理解高维复杂策略提供了新途径[160]–[162],这为AVs的轨迹预测任务提供了新思路[163],[164]。当RL用于AV的轨迹预测领域时,大多数方法使用马尔可夫决策过程(MDP)[165]来最大化预期的累积奖励。MDP是一个元组(S,A,P,R,γ),其中S是有限状态集,A是有限动作集,P是状态转移概率矩阵,R是奖励函数,γ是折扣因子。为了找到所有策略的最佳决策过程,最优状态值函数和最优行动值函数可以计算为:
使用MDP,基于RL的方法可以分为Inverse Reinforcement Learning(IRL)方法、生成对抗模仿学习(GAIL)方法和深度IRL(DIRL)方法,这将在下面讨论。
A.Inverse Reinforcement Learning
通常,MDP假设已经提供了奖励功能。然而,驾驶员的行为总是复杂的,因此手动指定奖励函数的权重是不合适的[166],[167]。IRL根据专家演示(轨迹)学习奖励函数,以生成相应的最优驾驶策略,如图13所示。
根据奖励函数权重的学习方式,论文将IRL分为基于最大边际的方法和基于最大熵的方法。基于最大边际的方法通过最小化专家演示和预测轨迹之间的特征期望来优化奖励函数权重。在[168]中,结构化最大值被应用于从特征学习映射以奖励并使用MDP中的这些最优策略来模仿专家的行为。SCIRL由[169]提出,它没有解决直接的RL问题,而是通过结构化分类来估计专家策略的特征期望。Silver等人[170]使用最大利润规划框架来学习AV的奖励功能和驾驶策略。然而,大多数基于边缘的方法在特征期望的匹配中是模糊的,因为一些退化也可以满足专家论证的最优策略。
基于最大熵的方法更受欢迎,因为它们可以使用多个奖励函数来解释专家行为的模糊性[171],其中大多数基于线性映射:
一些工作将基于最大熵的IRL(MaxEnt-IRL)应用于AV的行为预测。在[172]中,使用MaxEnt-IRL可接受性相关行为模型从专家的轨迹中学习以生成随机行为,然后通过最大化社会可接受性来选择最佳行为模型。Sharifzadeh等人[173]利用IRL和深度Q网络(DQN)提取具有大状态空间的奖励。在[174]中,相互作用相关因素被考虑来完成AV的概率预测。未来轨迹的分布是由驾驶策略制定的。[175]提出了一种时空状态格,用于从专家演示中模拟驾驶员行为。
此外,一些MaxEnt-IRL方法利用采样轨迹来完成预测任务。在[176]中,首先对候选轨迹进行采样,以最小成本选择候选轨迹作为预测轨迹。其他相关算法[177]-[181]可以参考论文。
B.Generative Adversarial Imitation Learning
Ho等人[191]在2016年提出了GAIL,该方法使用GAN的方法在RL中进行模仿学习。GAIL没有从专家与IRL的演示中学习奖励功能,而是直接从数据中提取策略。正如GAN一样,GAIL的核心思想是,生成器生成尽可能与专家轨迹相似的轨迹,判别器器尝试尽可能判断它是否是专家轨迹。
许多文章使用GAIL来完成AV的轨迹预测。Kuefler等人[182]将GAIL扩展到RNN的优化,以演示人类驾驶员行为,并通过判别器评估策略和行为。Li等人[183]应用信息最大化定理来提取专家演示的潜在结构。在[184]中,提出了GAIL的参数共享扩展,以建模多智能体之间的交互,并可以为智能体提供特定领域的知识。为了克服GAIL仅使用当前状态对下一个状态建模的缺点,Choi等人[185]提出了一种在GAIL框架内结合部分可观测马尔可夫决策过程(POMDP)的方法,并使用来自判别器的奖励函数来训练模型。
C.Deep Inverse Reinforcement Learning
由于预测问题是非线性的,因此有必要使用非线性映射来进行广义函数近似。在[192]中,提出了深度反向强化学习(DIRL)框架来近似复杂和非线性的奖励函数:
本文将完全卷积神经网络(FCN)应用于IRL中进行奖励近似。一些DIRL方法将历史轨迹作为输入。You等人[186]考虑了驾驶风格和道路几何形状,其中作者首先使用RL设计MDP,然后从IRL学习最佳驾驶策略,并使用深度神经网络(DNN)来近似奖励函数。在[164]中,流量参与者的轨迹由LSTM编码,奖励网络由FCN学习。
目前,更多基于DIRL的方法直接使用原始感知数据。Wulfmeier等人[187]应用FCN将激光雷达数据映射到可穿越性地图。该网络被预先训练以回归到人工先验成本图,并且初始化权重将由最大熵DIRL网络微调。在[188]中,使用相机图像,驾驶行为由DIRL建模,CNN将提取相关状态特征。Zhu等人[189]使用RL-ConvNet和状态访问频率(SVF)ConvNet对车辆运动学进行编码,并通过在专家演示的专家SVF和激光雷达数据的政策SVF之间反向传播损失梯度[193]来获得奖励函数的权重。在[190]中,提出了一种考虑惯性、环境和社会因素的卷积LSTM,以从激光雷达和轨迹数据中提取特征图,并将其纳入输出奖励图中,以预测可穿越性图。
D.总结
总之,基于强化学习的AV轨迹预测方法可分为表V。此类方法使用MDP最大化预期累积奖励,并通过学习专家演示生成最佳驾驶策略,其中大多数是基于规划的方法。结合深度学习网络,这些方法可以更好地提取专家演示并考虑更多因素。然而,大多数都是计算密集型的,需要长时间的训练。
评估
各种数据集的出现促进了基于学习的预测算法的性能。因此,有必要选择合适的指标来评估每个算法的性能。本节将首先介绍几个数据集,然后介绍性能评价指标,最后将比较在同一NGSIM数据集上使用不同方法的上述工作的性能[194]。
数据集
为了评估轨迹预测模型的质量,通常将预测的轨迹与从各种数据集获得的GT轨迹进行比较。这些数据集由传感器(如激光雷达和摄像机)收集,并手动标注或自动生成,以生成车辆运动序列。
表六总结了轨迹预测中使用的流行数据集。本文按时间倒序介绍了数据集,并列出了使用数据集进行轨迹预测的典型方法。本文中提到的大多数方法都以轨迹作为输入,有些方法还使用车辆状态或地图信息。然而,由于这些数据集中的大多数轨迹是通过从图像或点云学习方法获得的,因此一些模型直接使用图像或点云来作为端到端轨迹预测的输入。
评价指标
几种评估指标通常用于车辆轨迹预测。
- Root Mean Squared Error (RMSE):RMSE计算平方预测误差平均值的平方根,RMSE对大的预测误差敏感,是轨迹预测的常用度量之一。
- Negative Log Likelihood (NLL):对于建模的轨迹分布,RMSE用于计算模型的平均误差,而NLL更侧重于确定基于机动的模型中轨迹的正确性。
- Average displacement error (ADE):预测轨迹和GT之间的平均L2距离。对于多模态预测,最小ADE(mADE)通常用于指示ADE超过K个预测的最小值。
- Final displacement error (FDE):最终预测结果与相应GT位置之间的L2距离。对于多模态预测,最小FDE(mFDE)通常用于指示FDE超过K个预测的最小值。
- Miss Rate (MR):基于最终位置的L2距离,预测轨迹不在GT2.0米范围内的情况比率。当预测结果为多模态时,假设预测结果为K个可能的未来轨迹,则将根据最佳未来轨迹判断ADE、FDE和MR,并分别记录为、和。
- Computation Time:计算时间对于该方法的车载性能非常重要。自动驾驶汽车的计算能力有限,但轨迹预测模型通常很复杂,需要巨大的计算资源。为了实现更高的自动驾驶水平,每个模块的计算必须相对较快,以尽可能减少延迟。因此,实时性能或计算成本对模型非常重要。
- Prediction Horizon:Prediction horizon是指模型可以预测的未来时间步长。通常,Prediction horizon越长,在动态甚至随机驾驶环境中的准确度就越低。然而,为了满足规划和控制系统的要求,应将具有一定周期时间的轨迹预测结果输入系统,以便预测时间不应太短,并与其他模块保持一致。
不同方法的性能
对于真实世界的自动驾驶,准确度是轨迹预测方法的最重要指标之一。为了让读者更好地比较各种方法及其准确性,本文分别比较了轨迹预测方法在公路和城市场景中的性能。在表VII中,使用RMSE比较了基于NGSIM I-80和US-101公路行驶数据集[194]的方法,而论文使用minADE、minFDE和MR比较了基于表VIII中Argoverse[77]的方法。从表VII和VIII可以看出,预测时间越长,预测精度越低,大多数基于学习的方法都超过了传统方法。此外,多模态预测更符合人类的认知过程,并且多模态预测比单模态预测更准确。GNN在表VII中表现良好,能够捕获结构道路特征,因此一些最先进的方法使用GNN编码高清地图信息并完成轨迹预测。目前,大多数最新的轨迹预测方法都使用深度学习,但为了AV进行更安全的规划和控制,轨迹预测方法需要更精确。
应用
由于轨迹预测在确保AV安全方面发挥着重要作用,主要自动驾驶团队已将轨迹预测模块嵌入L4级以上AV的开发中。然而,由于软件的保密性,许多自动驾驶制造商没有提到他们使用的具体算法,因此本节仅总结了已经明确宣布的自动驾驶团队使用的轨迹预测方法。早期的真实世界研究使用基于物理的方法进行轨迹预测[23]。接下来,宝马使用动态贝叶斯网络确定周围车辆的驾驶意图,并在高速公路上进行实验[204]。中国科学技术大学的先锋IV自动驾驶汽车使用知识驱动方法获得预测车辆的未来车道,然后使用LSTM预测其未来轨迹[205]。对于百度阿波罗自动驾驶汽车[206],引入了一种基于先进方法TNT[139]的新模型Inter-TNT作为预测模块。随着自动驾驶技术的进步,越来越先进和复杂的轨迹预测方法将应用于真实车辆。
讨论和方向
本节将讨论轨迹预测的不同类别的优缺点,并概述潜在的研究方向,以指导该领域的读者。
讨论
本节讨论了轨迹预测方法在精度、计算时间、预测范围等方面的性能,分析了其在AV中的实际应用,并在表IX中给出了总结。请注意,论文参考短期和长期预测来分别描述不超过1s和不少于3s的预测范围。
基于物理的方法
它们适用于车辆的运动,可以用运动学或动力学模型精确描述。给定合适的物理模型,这些方法可以应用于各种场景,计算成本低,时间短,但无需训练。然而,基于这种模型的预测结果在很大程度上取决于输入和模型选择。输入与人类或机器驾驶员密切相关,受驾驶环境或与其他参与者的互动影响。因此,由于无法描述这些因素,基于物理的模型仅限于短期预测和静态场景。由于其简单性和快速响应,这些方法可以很容易地用于AV的实际应用,例如碰撞风险分析。
经典基于机器学习的方法
与基于物理的方法相比,这类方法能够考虑更多的因素,其精度相对较高,预测长度较长,计算成本较高。这些方法大多是基于策略的方法,通过已知的先验策略来预测轨迹。然而,人类驾驶员的车辆操纵通常是多样的,并且在不同的场景中变化很大,因此泛化能力很差。在AV的实际应用中,此类方法用于车道变化研究等场景中,利用其在策略识别方面的优势。
基于深度学习的方法
传统的AV轨迹预测方法仅适用于简单场景和短期预测,但基于深度学习的方法可以在更长的预测范围内进行准确预测。通过使用RNN、CNN、GNN和其他网络进行特征提取,考虑了交互相关因素和地图信息。其中,它可以适应更复杂的环境和更长的时间范围。基于深度学习的方法需要使用大量数据进行训练。此外,随着考虑因素的增加和网络层数量的增加,计算成本和时间急剧增加。这种方法可以自然地生成多模态轨迹,这与车辆机动的多样性相一致。在AV的实际应用中,有必要在计算时间和模型复杂度之间取得平衡,以确保AV的实时性能和安全性。目前,越来越多的真实世界试验使用这些方法来预测交通参与者的未来轨迹。
基于强化学习的方法
他们模仿人类的决策过程,通过学习专家演示获得奖励函数,从而生成相应的最优驾驶策略。它们可以通过学习不断进化,适应复杂的环境和较长的预测范围。在更长的时间域中,这种方法可能比深度学习方法生成更高精度的轨迹。然而,这些方法中的大多数在恢复专家成本函数时通常计算成本较高,并且需要较长的训练时间。在AVs的实际应用中,基于强化学习的轨迹预测方法更多地应用于轨迹规划,在决策过程中发挥了其优势。
潜在研究方向
随着自动驾驶技术的不断进步,轨迹预测的重要性越来越受到重视。轨迹预测方法已经从传统的卡尔曼滤波方法发展为基于学习的方法,可以处理更复杂的场景。在总结了过去二十年的方法之后,本文概述了潜在的研究方向,如图14所示,并进行了如下讨论。
- 1)包含更多信息:可以看出,基于交互感知因素和地图信息的方法更适合实际应用场景,是当前最流行的发展方向之一。然而,除了交互相关因素之外,还需要考虑更多的信息。例如,当前的大多数方法不考虑基于明确交通规则的约束,但在实际场景中,交通规则可以重塑车辆的策略甚至轨迹。类似地,诸如交通灯、道路标志等信息也可以用作预测的可靠输入。此外,其他有用的视听信息,如车辆转向信号、车辆喇叭等,可以用作预测的参考。未来,鼓励研究人员使用更多信息进行轨迹预测。
- 2)引入更先进的算法:正如Transformer模型在NLP领域的杰出成就[119]一样,通过引入更先进的算法,它可以在相同的输入数据下实现更高的预测精度。当前的算法通过添加高精地图、考虑交互相关因素并生成符合人类意图的多模态轨迹来实现高精度。此外,需要不断提出更先进的算法,以进一步提高具有新结构和训练方法的轨迹预测算法的能力。随着自动驾驶系统的不断迭代升级,提高AV的预测能力,通过更先进的算法满足自动驾驶的安全要求已成为大势所趋。
- 3)集成AV的其他关键技术:当将轨迹预测结果用于决策、轨迹规划和运动控制时,整个系统的有效性可以大大提高。以运动控制系统为例,目前的运动控制系统大多将交通参与者的运动视为均匀的线性运动,这与交通参与者的真实轨迹截然不同。当集成轨迹预测模型时,本地决策规划控制系统可以更好地应对环境变化,提高自动驾驶的安全性。
- 4)提升模型的鲁棒性:大多数数据集是半自动标注的,GT轨迹具有测量噪声。在AV的实际应用中,感知系统中存在各种噪声,包括跟踪误差、位置误差、地图误差等,这些噪声会带来偏差和不确定性。因此,应考虑鲁棒性以提高AV的实际应用的抗干扰能力。此外,除了位置度量(如ADE、FDE),还应应用概率度量(NLL、mADE、mFDE)来提高方法的可信度,并使模型更好地适用于真实世界的自动驾驶。
- 5)建立基准:需要一个基准,在更复杂的环境中使用标准的统一度量和地图可用数据集。该基准应允许使用避障场景和非凸约束进行长期和多模态预测,并允许使用不同的历史范围预测不同预测范围的未来轨迹。此外,需要一个测试集来对训练的模型进行推理,并将计算时间作为统一的比较。此外,在AV的实际应用中,由于良好的感知和跟踪并不总是完成的,因此基准数据集应包括具有不准确GT的测试集,以更适合实际应用并更好地用于AV。
结论
本文对AVs的轨迹预测问题进行了深入分析,并提出了轨迹预测方法的分类。综述了AV的轨迹预测方法,包括基于物理的方法、经典的基于机器学习的方法、基于深度学习的方法和基于强化学习的方法。讨论了每种方法的性能以及将其应用于真实世界自动驾驶的机会。AV轨迹预测的最新进展令人鼓舞,但它仍然面临着各种挑战,并且在未来有潜在的研究方向,论文已经概述了这些方向,以指导该领域的读者。安全对于自动驾驶至关重要。为了突破AV的瓶颈并确保其安全,AV需要像人类驾驶员一样预测其周围环境。我们希望论文的调查将改进预测系统在AVs中的应用,并鼓励沿着所讨论的方向进行进一步研究。
参考
[1] A Survey on Trajectory-Prediction Methods for Autonomous Driving
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)