【新智元导读】当前自动驾驶的策略研究还停留在具体场景执行具体策略,最近清华大学的研究人员在交通领域的顶会发表了一篇全面的综述,从更高级的角度分析自动驾驶策略。
当自动驾驶遇见会车,应该抢先通过,还是等待让行?
自动驾驶的策略一直是该领域的核心问题,即在交通冲突区域内,自动驾驶汽车应该如何与其他交通参与者进行合理且高效的互动。过于激进或过于保守的策略都会对通行效率产生影响,甚至对乘坐者的生命安全造成威胁。之前对于自动驾驶策略的研究主要集中在低级详细的驾驶行为或特定的交通情况上,也就是「具体问题具体分析」,导致工程代码里可能有成千上万个if-else,而目前也缺乏对高级驾驶策略研究。尽管研究人员对驾驶策略表现出越来越多的兴趣,但仍没有关于如何主动实施安全驾驶的全面答案。最近,由清华大学、中科院自动化所和Intel中国研究院联合研究的成果,在交通安全领域国际顶级期刊Accident Analysis and Prevention(交通领域SSCI期刊排名第一,JCR Q1)举办的2021年年度研讨会上进行了公开展示和口头汇报,并获得了该期刊年度最佳论文奖。论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0001457520317577#!作者在分析了几种代表性驾驶策略之后,提出了三个对衡量驾驶策略很重要的特征维度:首选目标(preferred objective),风险欲望(risk appetite)和协作方式(collaborative manner)。根据这三个特征维度,研究人员将自动驾驶汽车的现有驾驶策略分为四种:防御性驾驶策略,竞争性驾驶策略,谈判的驾驶策略和合作驾驶策略,并对这四种策略进行了比较,并找出了改善高级驾驶策略设计的可能方向。作者认为,在面对将长期存在的混合交通流(自动驾驶汽车与传统汽车混行)时,应该主动引入路权协商机制以调和个体意图之间的矛盾。论文的通讯作者为李志恒博士,目前是清华大学深圳研究生院副教授、博导。于2009年获清华大学自动化系控制科学与工程学科工学博士学位。主要研究方向为:智能交通系统、交通信号控制系统、交通管理规划、智能公共交通系统、智能交通大数据研究等。主持和参与国家级项目10余项。
自动驾驶的未来
近年来,自动驾驶技术被寄予厚望,人们普遍相信其有潜力重塑整个道路运输领域并解决众多实际交通问题,如道路可达性、交通效率、便利性,尤其是安全性。
然而,越来越多的研究者逐渐发现,教会自动驾驶汽车「安全行驶」绝非易事。以左转为例,2010 年美国交通部的一项研究对超过200万起事故调查后发现,左转发生的事故几率是右转的二十倍;自动驾驶领域巨头Waymo的行为团队负责人、软件工程师Nathaniel Fairfield认为:无保护的左转是自动驾驶中最棘手的事情之一;MIT机械工程系John Leonard教授也曾坦言:自动驾驶每天都有很多挑战,左转弯几乎在问题列表的最上端。
而该项工作研究团队认为,引发左转碰撞这类安全问题的本质原因是不同车辆在互动时采用的宏观策略存在差异。不同于聚焦具体场景或具体驾驶行为的微观策略,宏观策略是对决策过程典型要素的抽象,是由自动驾驶策略的硬件基础与决策机制共同决定的。
因此,这项工作主要讨论了自动驾驶汽车在与其他交通参与者互动的过程中,应该遵循何种宏观策略以避免由误判引起的碰撞风险,从而有序通过交通冲突区域。
在这项工作中,研究团队在回顾现有研究后,提出了两个用来衡量宏观驾驶策略的主要维度:
- 协作意愿,即驾驶主体是否愿意为换取整体利益而让渡一部分个体利益;
- 风险偏好,即驾驶主体对驾驶策略所带来的潜在风险的态度。
根据整体利益(环境交通效率等)和个体利益(单车通行速度)之间不同的侧重,现有典型驾驶策略可以分为「对抗驾驶」和「合作驾驶」两类。
其中,根据风险偏好的不同,对抗驾驶策略进一步分为了偏好安全指标的风险厌恶型「防御性驾驶策略」和偏好速度指标的风险中性「竞争性驾驶策略」。
而合作性驾驶策略又可以分为不依赖主动通信设备的“协商性驾驶策略”和依赖主动通信设备(车联网、V2V等)的「协同性驾驶策略」(图1)。
图1:四类典型宏观驾驶策略
在这项工作中,研究团队针对以上四种典型驾驶策略的运作机理,核心任务,交互逻辑,决策机制和硬件基础进行了综述分析。
具体来说,防御性驾驶策略被定义为:对其它车辆采取非理性假设(即认为非理性行为发生概率高),规定自动驾驶汽车以保证自身安全为核心目的而独立决策的一种驾驶策略。
竞争性驾驶策略被定义为:对其它车辆采取理性假设(即认为非理性行为发生概率低),规定自动驾驶汽车以提高自身效率为核心目的而独立决策的一种驾驶策略。
协商性驾驶策略被定义为:基于对传统驾驶行为的理解,自动驾驶汽车与其他车辆进行合理协商、共同决策,以换取效率和安全兼顾的一种驾驶策略。
协同性驾驶策略被定义为:在车联网技术的支持下,自动驾驶汽车与其他车辆协同、接受统一调度指令以达到全局最优的一种驾驶策略。
紧接着,团队进一步对这四种策略的利弊与特点进行了讨论。
随着本世纪自动驾驶技术的发展,防御驾驶策略最早被提出,因为这种驾驶策略与人类驾驶规则之间存在着诸多相似之处,核心目标都是消解或者减少交通不确定性所带来的潜在风险。
然而,防御性驾驶的最大弊病在于:自动驾驶汽车为了防止小概率交通事故的发生可能会过度冗余保守,使得交通效率下降。
比如,在Intel Mobileye团队提出的责任敏感性驾驶模型(Responsibility Sensitive Safety,RSS)原始版本[2]中,自动驾驶汽车被要求保持足够远的安全距离以应对前车随时可能的急刹行为(图2)。
而团队进一步研究发现,当将前车的意图纳入决策考量后,自动驾驶汽车可以在保证安全要求的前提下将跟随距离缩短三倍以上。这表明在引入交互后,改良后的防御驾驶同样可以保证一定的交通效率。
相关研究成果也已经得到公开发表并被Mobileye采纳[3]。
图2:Mobileye 发布的RSS原始版本中对安全距离的规定[2]
随着研究的深入,防御驾驶策略的各种弊端逐渐显现,如缺乏长期规划、影响交通效率等。
为了解决这些问题,「学习」的概念逐渐被引入自动驾驶领域,人们试图教会机器像人类一样,基于经验在预期收益和潜在风险之间做出决策。
基于这一想法,以MIT强化学习模型Deep Traffic(图3)为代表的竞争驾驶策略应运而生[4]。
在这种策略的引导下,自动驾驶汽车将道路交通视为「非合作动态博弈」过程,并始终在寻找提高驾驶效益的可能性。
然而,这类驾驶策略往往难以绕开两个问题:
1. 仿真所带来的拟真性问题,即「reality gap」。这类驾驶决策算法往往需要在仿真系统中进行,而算法的训练过程恰恰十分依赖于环境反馈,那么如何保证仿真系统中的互动过程足够逼真,是研究者必须回答的问题;
2. 理性假设所带来的潜在风险增加。经研究发现,随着训练的进行,由于仿真环境中的理性个体远多于非理性个体,自动驾驶汽车可能会从一次次冒险行为中「尝到甜头」,而越来越趋向于采取激进的驾驶行为 [5]。这种理性假设在实际道路上可能会引发交通阻塞后果。图3:MIT的Deep Traffic驾驶决策模型 [4](图片来源:https://selfdrivingcars.mit.edu/deeptraffic)
因此,协商驾驶的概念被提出,其主张将路权协商机制引入以调和个体意图之间的矛盾。研究团队将自动驾驶汽车与其他车辆协商路权时需要遵循的原则总结为三点(图4)[6]:
- 要保守处理感知的局限性;
- 要将车与车之间的交互(包括隐性通信与主动通信)纳入决策考量;
- 要平衡交通安全与交通效率,即考虑策略的敏捷性。
基于此,研究团队又相继发表多篇论文论述了如何在各类典型交通场景下基于路权协商进行有效驾驶决策[7]。 图4:安全驾驶所强调的三个核心原则[6]然而,协商驾驶受限于通信信息量,仍未达到对道路运力的最大利用。随着近年来主动通信技术的成熟和分布式协同决策模型的发展,基于车联网的全局协同驾驶成为可能。
协同驾驶的基本假设是,所有道路车辆都将自身状态信息汇报给中央控制系统,并完全遵守系统统一分配的机动方案进行运动控制。
在此假设下,自动驾驶汽车不再需要进行复杂的轨迹预测和风险评估,可以通过优化或搜索的方法,以最小的计算成本换取道路资源的最大限度利用(图5)[8,9]。 图5:不同策略下20辆车通过同一路口时延对比[9]Enumeration—基于枚举的协同驾驶全局最优解(时延315.06s);MCTS—基于搜索的协同驾驶近似最优解(时延316.18s);FIFO—基于规则的协商驾驶一般解(时延382.54s)上述协同驾驶的实现有三个前提条件:在车端,必须完成自动驾驶替代并配备主动通信设备;在路端,必须布设密集的智能基础设施作为感知与通信节点;在云端,必须架设低时延、高并发的通信网络与控制中心。
而这也意味着协同驾驶注定无法在短期内落地,我们必须认真考虑在未来较长的一段时间内,如何面对自动驾驶汽车与人类驾驶汽车混行的现实。
一个让人担心的问题是,不同的自动驾驶汽车制造商有着自己的驾驶策略。这有可能会导致一些自动驾驶汽车根据自身的策略,误判其它车辆的策略,从而导致事故的发生。因此,研究者呼吁在驾驶策略层面达成共识,更好的实现和谐驾驶,提高驾驶安全。
随着机器智能水平的逐渐逼近人类,机器如何在更广泛的范围内与人类和谐相处将会成为本世纪最重要的科学问题之一。
而在我国发布的《新一代人工智能发展规划》中,提出了面向2030年我国新一代人工智能发展的指导思想、战略目标和重点任务。其中,人机协同的人工智能是一大重点研究方向。
自动驾驶作为人工智能发展中的代表性领域,在Level 2-Level 5级的人机共驾,Level-4-Level 5级的多种车辆协同中,都涉及人机协同的人工智能研究问题,这些问题的解决涉及到行为建模、人机交互、心理学等多个学科交叉,有必要得到更多的关注和重视。
参考资料:
[1] C. Zhao, L. Li, X. Pei, Z. Li, F.-Y. Wang, X. Wu, "A comparative study of state-of-the-art driving strategies for autonomous vehicles," Accident Analysis & Prevention, vol. 150, id. 105937, 2021.
[2] S. Shalev-Shwartz, S. Shammah, A. Shashua, On a formal model of safe and scalable self-driving cars, https://arxiv.org/abs/1708.06374
[3] L. Li, X. Peng, F.-Y. Wang, D. Cao, L. Li, "A situation-aware collision avoidance strategy for car-following," IEEE/CAA Journal of Automatica Sinica, vol. 5, no. 5, pp. 1012-1016, 2018.
[4] L. Fridman, J. Terwilliger, B. Jenik, "DeepTraffic: crowdsourced hyperparameter tuning of deep reinforcement learning systems for multi-agent dense traffic navigation," Neural Information Processing Systems (NIPS 2018) Deep Reinforcement Learning Workshop 2018.
[5] G. Wang, J. Hu, Z. Li, L. Li, "Harmonious lane changing via deep reinforcement learning," IEEE Transactions on Intelligent Transportation Systems, https://ieeexplore.ieee.org/document/9325948/
[6] L. Li, C. Zhao, X. Wang, et al, Three principles to determine the right-of-way for AVs: safe interaction with humans, IEEE Transactions on Intelligent Transportation Systems, https://ieeexplore.ieee.org/document/9430772
[7] C. Zhao, Z. Li, L. Li, X. Wang, F.-Y. Wang, X. Wu, A negotiation-based right-of-way assignment strategy to ensure traffic safety and efficiency in lane change, IET Intelligent Transportation Systems, vol. 15, no. 11, pp. 1345-1358, 2021.
[8] Y. Meng, L. Li, F.-Y. Wang, K. Li, Z. Li, "Analysis of cooperative driving strategies for nonsignalized intersections," IEEE Transactions on Vehicular Technology, vol. 67, no. 4, pp. 2900-2911, 2018.
[9] H. Xu, Y. Zhang, L. Li, W. Li, "Cooperative driving at unsignalized intersections using tree search," IEEE Transactions on Intelligent Transportation Systems, vol. 21, no. 11, pp. 4563-4571, 2020.