基于无标注网络驾驶视频,自动驾驶策略预训练新方法 | ICLR 2023

简介: 基于无标注网络驾驶视频,自动驾驶策略预训练新方法 | ICLR 2023



2023 年 1 月 21 日,人工智能顶级会议 ICLR 2023(International Conference on Learning Representations)投稿结果正式公布。上海人工智能实验室自动驾驶 OpenDriveLab 团队成果 —— 基于自监督几何建模的自动驾驶策略预训练方法(PPGeo)被正式录用。PPGeo 是一个基于几何建模的自监督预训练框架,利用大量无标注网络驾驶视频,以自监督的方式对驾驶策略进行预训练,将会显著提升下游端到端感知决策任务的性能


驾驶策略学习的特殊性


自动驾驶领域中的端到端驾驶策略学习将原始传感器数据(图片,车身信号,点云等)作为输入,直接预测控制信号或规划路线。由于驾驶环境的复杂性和不确定性以及传感器数据中的大量无关信息,对于端到端的驾驶策略模型,从头开始学习是很困难的,它通常需要大量的标注数据或环境交互反馈才能达到令人满意的性能。


如图 1 所示,自然环境中存在着许多不需要关注的信息如建筑物、天气变化以及光照变化等,于驾驶任务而言,下一步往哪里行驶,信号灯是否允许通行,这些信息才是真正需要关注的。

 

  • (a) 静态障碍物和背景建筑物(黄色矩形中的物体)与驾驶决策无关;
  • (b) 视觉输入中的交通信号(标有绿色框)仅占图片的很小一部分,但对于控制输出而言却是确定性的;
  • (c) 端到端驾驶策略模型必须对不同的光照和天气条件具有鲁棒性。


图 1:PPGeo 研究动机


当前预训练方法在策略学习任务中的限制


为解决端到端的驾驶策略模型对于大规模标注数据的需求,采用无标注的驾驶视频 (如图 2)数据对驾驶策略模型的感知部分进行预训练是很自然的思路,因此获得了非常广泛有效的应用,主流的预训练方法包括分类,对比学习,掩码图像建模。然而,不同于常见的检测和分割任务,端到端驾驶策略学习对自车的位姿敏感,缺乏平移或视角不变性。这也使得常见视觉任务预训练的常胜将军们,在端到端驾驶策略学习任务上败下阵来。由于上文提到的端到端驾驶任务输入的特殊性,其他机器人领域的视觉控制任务使用的预训练方法在这里也表现相对有限。


图 2:YouTube 上驾驶视频数据示例


对此,OpenDriveLab 团队提出一个基于自监督几何建模的端到端自动驾驶策略预训练方法(PPGeo)




基于自监督几何建模的策略预训练


PPGeo 分为两个阶段,在第一阶段,根据时序前后帧图像训练位姿和深度预测网络;在第二阶段,利用第一阶段训练的深度网络和位姿网络监督单图像输入的视觉编码器,完成视觉编码器的预训练。将使用 PPGeo 预训练后的视觉编码器进行微调,可以适配于下游不同的端到端自动驾驶任务。实验表明,基于 PPGeo 的预训练方法相比于其他预训练方法在下游任务上具有更好的驾驶性能。


图 3:PPGeo 的概述。(a) 在第一阶段 (a.1), 利用前后帧图像作为输入,训练一个位姿预测网络 PoseNet 和深度预测网络 DepthNet,位姿预测网络通过比较前后帧图片推测出自车运动,并结合深度和相机内参估计完成两帧之间的像素对应,从而形成监督。在第二阶段 (a.2),待预训练的视觉编码器仅以单帧图像作为输入,在当前帧图像中捕捉与驾驶策略真正相关的信息来预测自车运动,并利用第一阶段获得的内参和深度估计完成像素对应。在这个说明性的例子中,自车需要刹车。位姿预测网络(a.1)根据连续两帧几乎没有变化来推断出刹车行为;而视觉编码器(a.2)根据单一视觉输入中前方有他车来做出预测。(b) 视觉编码器可以被微调并应用于广泛的下游任务中。


第一阶段 - 自监督的几何建模


通过给定一个目标图像 I_t 和源图像 I_(t^' ),估计目标图像的深度、相机的内参,以及这两帧之间的六自由度自车运动。根据这些估计结果,我们可以对场景的三维几何形状进行建模,并通过在源图像中投影像素来重建目标图像,根据重建的光度误差计算损失进行自监督训练。


第二阶段 - 视觉运动策略预训练


经过第一阶段的训练后,估计深度的 DepthNet 和估计位姿变化的 PoseNet 经过良好的训练,已经拟合了驾驶视频数据。在第二阶段,我们将用于下游驾驶策略学习任务的视觉编码器 φ(X) 替换 PoseNet。现在,视觉编码器只接受单帧图像作为输入,并预测当前帧和后续帧之间的自车运动。当前到未来帧的自车运动直接与当前时刻下的驾驶决策或行动相关, 因此视觉编码器能够通过预测自车运动学习到实际的驾驶策略。


至此,视觉编码器 φ(X) 已经从大量的驾驶视频中获得了关于驾驶策略的知识。它可以作为初始权值应用于下游的端到端自动驾驶任务。此外,经过在大量无标注校准的视频数据上训练的 DepthNet 和 PoseNet 也可以用于深度和测程估计任务。


PPGeo 性能比较


PPGeo 的预训练实验是在大量无标注的 YouTube 驾驶视频上进行。我们在 1Hz 的频率下总共采样了 80 万帧样本来进行训练,训练样本涵盖了诸如地理位置和天气等不同的驾驶条件(如上图 2)。


下游自动驾驶任务实验


Navigation&Navigation  Dynamic - 基于 CARLA 的两个用于模拟学习的闭环驾驶任务


我们使用不同大小的训练数据(从 4K 到 40K)在标记数据有限的情况下评估预训练视觉编码器的泛化能力并进行闭环评估。评估指标是成功率,表示在 50 条预定义路线中完成驾驶路线没有发生任何碰撞的比率。相较于 Navigation 任务,Navigation Dynamic 中还包括其他动态车辆和行人(如图 4)。


图 4:导航和导航动态任务的前视图图像示例


表 1:闭环导航任务的成功率结果


可以看到,模型在从 10%  (4K)  到 100%(40K)的不同数量的微调样本下进行测试。在训练样本量特别小的情况下,PPGeo 依然表现出有竞争力的表现,并且相对其他方法有超过 100% 的提升。这验证了预训练视觉编码器的泛化能力,这在适应标记数据非常有限的新环境时非常重要。


Leaderboard‑Town05‑long


Leaderboard‑Town05‑long 的 10 条长距离路线任务更接近现实世界的城市驾驶,在路线中添加了不同的挑战性场景。由于此任务中具有挑战性的场景,我们使用最先进的基于单帧图像的自动驾驶模型 TCP (NeurIPS 2022)来评估不同的预训练方法。该任务的主要指标是驾驶分数、路线完成和违规分数(均越高越好)。


如表 2 所示,在更具挑战性和真实世界风格的 Leaderboard Town05-Long 任务中,使用我们的方法预训练的模型获得了最高的驾驶分数和违规分数。PPGeo 可以很好地处理自车需要刹车的情况,从而大大减少车辆碰撞和闯红灯的情况。


表 2:闭环任务 Town05-long 任务结果。除三个主要指标外,其余违规详细信息(越低越好)上 PPGeo 也均表现优秀


强化学习在 CARLA 中的驾驶任务


我们进一步验证预训练方法对于强化学习任务的帮助。我们使用强化学习算法近端策略优化  (PPO)  在 CARLA Town01 环境中训练使用不同预训练权重初始化的 CILRS 模型(左)。我们进一步实验在训练期间冻结预训练的视觉编码器(右),以更好地研究预训练特征表示的有效性。


图 5:使用  PPGeo  和其他三个最佳预训练方法的强化学习学习曲线。左:预训练视觉编码器在 RL 训练期间联合微调;右:视觉编码器在 RL 训练期间被冻结


NuScenes 上的开环规划任务


我们使用真实世界的 NuScenes 数据集评价不同时间长度下的轨迹规划预测与实际真实轨迹之间的 L2 距离以及规划轨迹导致的碰撞率。相较其它预训练方法,PPGeo 在下游开环规划任务上也取得了最优的效果。


表 3:NuScenes 开环轨迹规划结果


可视化结果


图 6 展示的是不同预训练方法学习的特征表示的热图。在许多情况下,我们的模型关注部分主要集中在与驾驶高度相关的自车前方的车道。PPGeo 还很好地捕捉到了导致刹车动作的特定线索,包括前方车辆(第 3 和 4 行)和交通信号灯(第 5 行)。我们还观察到,使用 ImageNet 分类预训练的模型倾向于捕获图像中的显著对象,当显著对象与驾驶决策直接相关时(第 4 行),该模型可以正常工作;但当输入包含其他不相关信息时(第 2 行和第 3 行),该模型可能会关注错误的对象。


图 6:驾驶视频数据上不同预训练方法学习表征的可视化热图


消融研究


就表 4 中的导航任务对 PPGeo 的不同设计进行了消融研究。同时在单个阶段(第 1 行)训练视觉编码器和 DepthNet 导致性能变差,这表明同时从头开始进行对深度估计网络和预测自车运动的视觉编码器的训练过于困难。此外,在第二阶段(第 2 行)联合优化 DepthNet 会降低深度估计质量并损害性能。在第 3 行中,我们观察到利用第一阶段获得的 PoseNet 提供伪标签监督将会导致较差的结果,因为单个不准确的伪标签在很大程度上对学习过程造成影响,而通过像素重建的方式可以获得更加稠密丰富的监督。


表 4:PPGeo 的关键设计消融研究


总结


  • 我们提出了一种针对视觉运动驾驶任务的预训练范式 PPGeo。这是第一个完全自监督的预训练框架,不需要任何标签和额外数据,可以充分利用大规模的无标注数据。
  • 经过预训练的视觉编码器,能够基于单一的视觉输入预测自车运动,并提取与驾驶策略密切相关的特征表征。这种视觉编码器的设计可以灵活地扩展到各种下游应用程序。
  • 我们在一系列端到端驾驶任务上展示了我们的方法的优越性,涵盖了不同的类型和难度级别。在数据非常有限的具有挑战性的情况下,各种指标方面的性能从 2% 提高到甚至超过 100%。
  • 使用第一阶段训练后的 DepthNet 和 PoseNet 作为初始权重,并在 KITTI 上进行实验。证明了通过大规模驾驶视频的预训练也可以提高深度和测程估计任务的性能,这是我们的预训练框架的额外收获。
相关文章
|
8天前
|
存储 安全 网络安全
云计算时代的网络安全挑战与策略
【10月更文挑战第34天】在数字化转型的浪潮中,云计算作为一项关键技术,正深刻改变着企业的运营方式。然而,随着云服务的普及,网络安全问题也日益凸显。本文将探讨云计算环境下的安全挑战,并提出相应的防护策略。
|
3天前
|
存储 安全 网络安全
云计算与网络安全:探索云服务中的信息安全策略
【10月更文挑战第39天】随着云计算的飞速发展,越来越多的企业和个人将数据和服务迁移到云端。然而,随之而来的网络安全问题也日益突出。本文将从云计算的基本概念出发,深入探讨在云服务中如何实施有效的网络安全和信息安全措施。我们将分析云服务模型(IaaS, PaaS, SaaS)的安全特性,并讨论如何在这些平台上部署安全策略。文章还将涉及最新的网络安全技术和实践,旨在为读者提供一套全面的云计算安全解决方案。
|
3天前
|
云安全 安全 网络安全
云计算与网络安全:技术挑战与解决策略
【10月更文挑战第39天】随着云计算技术的飞速发展,网络安全问题也日益凸显。本文将探讨云计算环境下的网络安全挑战,并提出相应的解决策略。通过分析云服务模型、网络安全威胁以及信息安全技术的应用,我们将揭示如何构建一个安全的云计算环境。
|
6天前
|
云安全 安全 网络安全
云计算与网络安全:挑战与应对策略####
云计算作为信息技术的一场革命,为数据存储和计算提供了前所未有的便利和效率。然而,随着云计算的广泛应用,其带来的网络安全问题也日益凸显。本文将探讨云计算环境下的主要网络安全挑战,包括数据泄露、网络攻击、身份和访问管理等问题,并分析云服务提供商和企业用户如何通过技术手段和管理策略来应对这些挑战。此外,还将讨论云计算与信息安全领域的最新发展趋势,旨在为读者提供一个全面的理解和实用的指导。通过深入剖析云计算的工作原理和安全机制,我们可以更好地理解如何保护我们的网络和信息安全。只有云计算提供商和用户共同努力,才能建立一个安全可靠的云计算环境。 ####
|
6天前
|
监控 安全 网络安全
网络安全的盾牌:漏洞防御与加密技术的现代策略
【10月更文挑战第36天】在数字化浪潮中,网络安全成为保护个人隐私和企业资产的关键防线。本文深入探讨网络安全漏洞的成因、影响及防御措施,并分析加密技术如何为信息安全提供坚固保障。通过案例分析和代码示例,揭示提升安全意识的重要性及其在防范网络攻击中的作用,旨在为读者提供一套全面的网络安全解决方案和预防策略。
|
11天前
|
存储 安全 云计算
云上防线:云计算时代的网络安全策略
云上防线:云计算时代的网络安全策略
30 4
|
14天前
|
存储 安全 网络安全
云计算与网络安全:保护数据的新策略
【10月更文挑战第28天】随着云计算的广泛应用,网络安全问题日益突出。本文将深入探讨云计算环境下的网络安全挑战,并提出有效的安全策略和措施。我们将分析云服务中的安全风险,探讨如何通过技术和管理措施来提升信息安全水平,包括加密技术、访问控制、安全审计等。此外,文章还将分享一些实用的代码示例,帮助读者更好地理解和应用这些安全策略。
|
19天前
|
SQL 安全 算法
网络安全漏洞与加密技术:保护信息安全的关键策略
【10月更文挑战第23天】在数字化时代,网络安全漏洞和信息安全问题日益突出。本文将探讨网络安全漏洞的概念、类型以及它们对信息系统的潜在威胁,并介绍加密技术如何成为防御这些安全威胁的有力工具。同时,强调安全意识的重要性,并提出加强网络安全教育和培训的建议。最后,通过一个代码示例,展示如何在网络应用中实现基本的加密措施,以增强读者对网络安全实践的认识。
|
22天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
|
9天前
|
云安全 安全 网络安全
云计算与网络安全:技术融合下的安全挑战与应对策略
【10月更文挑战第33天】在数字化转型的浪潮中,云计算作为支撑现代企业IT架构的核心,其安全性成为业界关注的焦点。本文从云计算服务的基本概念出发,探讨了云环境下的网络安全风险,并分析了信息安全的关键技术领域。通过对比传统网络环境与云端的差异,指出了云计算特有的安全挑战。文章进一步提出了一系列应对策略,旨在帮助企业和组织构建更为坚固的云安全防护体系。最后,通过一个简化的代码示例,演示了如何在云计算环境中实施基本的安全措施。

热门文章

最新文章