自从1988 的 Alvinn 开始,端到端自动驾驶便进入了人们的视野,不同于模块化的自动驾驶方案,端到端的自动驾驶将传感器原始输入直接通过网络得到规划轨迹/控制信号。端到端自动驾驶模型结构简单,直接优化最终的驾驶信号,近年来吸引了诸多学术界和工业界的注意。
但现阶段的端到端自动驾驶也存在着很多问题,如先前基于 RL/IL 的一系列工作往往是在特征提取后简单直接输出控制信号,是一个黑盒模型,对系统的安全性形成重大挑战;大量工作关注于感知部分的传感器融合、特征提取,而忽略了如何在决策输出部分提高鲁棒性;当前工业界端到端模型实际应用落地时会遇到哪些困难等。
针对这些问题,上海人工智能实验室自动驾驶团队的研究员在感知决策一体化方面做了诸多研究,在论文《Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline》中,提出了仅依靠单相机在 CARLA AD Leaderboard 上获得第一的方法 TCP,以及被 ECCV 2022 接收的论文《ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning》中,提出的基于环视相机的具有中间特征可解释性的 ST-P3 框架等内容。