ViT强势应用 | V2X基于ViT提出了一个具有V2X通信的强大协作感知框架

简介: 在本文中研究了Vehicle-to-Everything(V2X)通信在提高自动驾驶汽车感知性能方面的应用。使用新颖的vision Transformer提出了一个具有 V2X 通信的强大协作感知框架。

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA



640.png


在本文中研究了Vehicle-to-EverythingV2X)通信在提高自动驾驶汽车感知性能方面的应用。使用新颖的vision Transformer提出了一个具有 V2X 通信的强大协作感知框架。


具体来说,本文构建了一个整体注意力模型,即 V2X-ViT,以有效地融合道路代理(即车辆和基础设施)的信息。V2X-ViT 由异构多智能体自注意力多尺度窗口自注意力的交替层组成,可捕获智能体间的交互和每个智能体的空间关系。这些关键模块设计在统一的 Transformer 架构中,以应对常见的 V2X 挑战,包括异步信息共享、姿势错误和 V2X 组件的异构性。


为了验证方法的有效性,作者使用 CARLAOpenCDA 创建了一个大规模的 V2X 感知数据集。广泛的实验结果表明,V2X-ViT3D目标检测 方面得到了新的最先进性能,即使在恶劣、嘈杂的环境下也能实现稳健的性能。


1. 简介



准确感知复杂的驾驶环境对于自动驾驶汽车 (AV) 的安全至关重要。随着深度学习的最新进展,单车感知系统的鲁棒性在语义分割和模板检测等多项任务中表现出显著改善。尽管最近取得了进展,但挑战依然存在。单智能体感知系统往往会遭受远距离的遮挡和稀疏的传感器观察,这可能会导致灾难性的后果。造成这种问题的原因是单个车辆只能从单一视角感知环境,视野有限。为了解决这些问题,最近的研究通过调查Vehicle-to-Vehicle (V2V) 协作来利用同一场景的多个视点的优势,其中视觉信息(例如,检测输出、原始感官信息、中间深度学习特征)来自多个附近的 AV 共享,以便全面准确地了解环境。


尽管 V2V 技术有望彻底改变移动行业,但它忽略了一个关键——路边基础设施。自动驾驶汽车的存在通常是不可预测的,而一旦安装在十字路口和人行横道等关键场景中,基础设施总是可以提供支持。此外,在较高位置配备传感器的基础设施具有更广阔的视野和可能更少的遮挡。


尽管有这些优势,包括部署强大的 V2X 感知系统的基础设施并非易事。与所有代理都是同质的 V2V 协作不同,V2X 系统通常涉及由基础设施和 AV 形成的异构图。基础设施和车辆传感器之间的配置差异,例如类型、噪音水平、安装高度,甚至传感器属性和模式,使 V2X 感知系统的设计具有挑战性。此外,GPS 定位噪声和自动驾驶汽车和基础设施的异步传感器测量可能会引入不准确的坐标转换和滞后的传感信息。未能妥善处理这些挑战将使自动驾驶系统变得十分脆弱。


在本文中介绍了一个统一的融合框架,即 V2X Vision Transformer 或 V2X-ViT,用于 V2X 感知,可以共同应对这些挑战。图 2 说明了整个系统。AV 和基础设施相互捕获、编码、压缩和发送中间视觉特征,而自我车辆(即接收器)使用 V2X-Transformer 执行信息融合以进行目标检测。


作者提出了2个新颖的注意力模块来适应 V2X 挑战:


1.一个定制的异构多智能体自注意力模块,在执行注意力融合时明确考虑智能体类型(车辆和基础设施)及其连接;


2.一个多尺度窗口注意力模块,可以通过并行使用多分辨率窗口来处理定位错误。


这2个模块将以迭代的方式自适应地融合视觉特征,以捕捉智能体间的交互和每个智能体的空间关系,纠正由定位误差和时间延迟引起的特征错位。此外,还集成了延迟感知位置编码,以进一步处理时间延迟的不确定性。值得注意的是,所有这些模块都集成在一个Transformer中,该Transformer可以实现端到端地应对这些挑战。


640.png


为了评估本文的方法,作者收集了一个新的大规模开放数据集,即 V2XSet,它使用高保真模拟器carla和一个合作驾驶自动化模拟工具OpenCDA,明确地考虑了V2X通信过程中的真实噪声。图1显示了所收集到的数据集中的一个数据样本。实验表明,V2X-ViT显著提高了基于V2Xlidar的3D目标检测的性能,与single-agent baseline相比,实现了21.2%的AP增益,比领先的中间融合方法至少提高了7.3%。


本文的主要贡献包括:


1.提出了第一个用于V2X感知的统一Transformer架构(V2X-vit),它可以捕获V2X系统的异质性,对各种噪声具有很强的鲁棒性。此外,该模型在具有挑战性的协同检测任务上取得了最先进的性能。

2.提出了一种新的异构多智能体注意力模块(HMSA),专门用于异构智能体之间的自适应信息融合。

3.提出了一种新的多尺度窗口注意力模块(MSWin),它可以同时并行捕获局部和全局空间特征交互。

4.构建了V2XSet,一个新的大规模的V2X感知的开放模拟数据集,它明确地解释了不完善的现实世界条件。


2. V2X-ViT


在本文中,作者将 V2X 感知视为异构多智能体感知系统,其中不同类型的智能体(即智能基础设施和 AV)感知周围环境并相互通信。为了模拟真实世界的场景,假设所有代理的定位不完善,并且在特征传输过程中存在时间延迟。鉴于此开发一个强大的融合系统,以增强车辆的感知能力并以统一的端到端方式应对上述挑战。


640.png


框架的整体架构如图 2 所示,其中包括5个主要组件:


  1. 元数据共享
  2. 特征提取
  3. 压缩和共享
  4. V2X-ViT
  5. 一个Detection Head


2.1 主要的架构设计


1、元数据共享


在协作的早期阶段,每个 agent image.png 在通信网络中共享元数据,例如姿势、外在和agent类型 image.png(表示基础设施或车辆)。选择其中一个连接的 AV 作为自车辆 (e) 以在其周围构建 V2X 图,其中节点是 AV 或基础设施,边缘表示定向 V2X 通信通道。在这项工作中关注特征共享延迟并忽略元数据共享延迟,因为它的尺寸最小。更具体地说,假设元数据的传输是同步良好的,这意味着每个agent i 都可以在时间 image.png 接收到自姿势image.png $。在接收到本车的姿态后,附近的所有其他连接agent将在特征提取之前将自己的 LiDAR 点云投影到本车的坐标系中。


2、特征提取


利用PointPillar从点云中提取视觉特征(PointPillar具有低推理延迟和优化的内存使用)。原始点云将被转换为一个堆叠的pillar张量,然后分散到一个二维伪图像,并输入到 PointPillar backbonebackbone提取信息特征图image.png,表示 agent i在时间image.png的特征,高度为H、宽度为W和通道C。

3、压缩与共享


为了减少所需的传输带宽,利用一系列1×1卷积沿通道维度逐步压缩特征图。然后将大小为(H,W,C')的压缩特征(其中 C'<< C)传输到自车辆 (e),在其上使用1×1卷积将特征投影回(H,W,C) 。


在激光雷达数据被连接的agent捕获时和被提取的特征被自载体接收时之间存在着不可避免的时间间隔。因此,从周围agent收集的特征往往与自载体上捕获的特征在时间不一致。为了纠正这种延迟引起的全局空间失调,需要将接收到的特征转换(即旋转和平移)为当前的自车辆的姿态。因此,利用了一个时空校正模块(STCM),它使用了一个差分变换和采样算子Γξ来对特征映射进行空间扭曲。还计算了一个 ROI mask,以防止网络关注由空间扭曲引起的填充零。


4、V2X-ViT


从连接agents聚合的中间特征 image.png 被输入框架的主要组件,即 V2X-ViT,以使用自注意力机制进行迭代agents间和agents内特征融合。在整个 Transformer 中将特征图保持在相同的高分辨率水平,因为作者观察到缺乏高清特征会极大地损害模板检测性能。


5、Detection head


在收到最终的融合特征图 image.png 后,应用2个 1×1 卷积层进行框回归和分类。回归输出为(x,y,z,w,l,h,θ),分别表示预定义Anchor box的位置、大小和偏航角。分类输出是作为每个Anchor box的对象或背景的置信度得分。这里使用 PointPillar 中定义的相同损失,即用于回归的Smooth L1 Loss和用于分类的Focal Loss


2.2 V2X-Vision Transformer


作者的目标是设计一个定制的 Vision Transformer,可以共同应对常见的 V2X 挑战。首先,为了有效地捕捉基础设施和 AV 之间的异构图表示,作者构建了一个异构多智能体自注意力模块,该模块根据节点和边类型学习不同的关系提出了一种新颖的空间注意力模块,即多尺度窗口注意力MSwin),它可以捕获各种尺度的远程交互。MSwin 使用多个窗口大小来聚合空间信息,这大大提高了对定位错误的检测鲁棒性。最后,这2个注意力模块以分解的方式集成到单个 V2X-ViT 块中(如图 3a 所示)能够在整个过程中保持高分辨率特征。堆叠了一系列 V2X-ViT 块以迭代地学习agent间交互和每个agent的空间注意力,从而产生用于检测的强大聚合特征表示。

640.png


1、异构多智能体自注意力


基础设施和 AV 捕获的传感器测量结果可能具有不同的特征。基础设施的激光雷达通常安装在较高位置,遮挡较少且视角不同。此外,由于维护频率、硬件质量等原因,传感器可能具有不同级别的传感器噪声。为了编码这种异质性,作者构建了一种新颖的异构多智能体自注意力(HMSA),其中将类型附加到节点和边缘有向图。


为了简化图结构,假设同一类别的agent之间的传感器设置是相同的。如图 3b 所示,有2种类型的节点和4种类型的边,即节点类型  image.png和边类型image.png

请注意,与将节点特征视为向量的传统注意力不同,仅推理来自不同agent的相同空间位置的特征的交互以保留空间线索。形式上,HSMA 表示为:

640.png

HSMA 包含3个操作符:一个线性聚合器image.png、注意力权值估计器ATT和消息聚合器MSG。密集度是一组由节点类型索引image.png的线性投影,聚合了多头信息。ATT计算基于相关节点和边缘类型的节点对之间的重要性权重:

640.png


式中,|| 表示concat,m为当前Head数,h为Head总数。请注意,这里的密集度是由节点类型image.png和Head数m共同索引的。K和Q中的线性层有不同的参数。


为了结合边的语义意义,计算了query和key向量之间的点积,由矩阵image.png加权。类似地,当解析来自相邻agent的消息时,通过分别嵌入基础设施和车辆的特性。利用矩阵image.png,根据源节点与目标节点之间的边缘类型投影特征:


640.png


2、多尺度窗口注意力


本文提出了一种新型的注意力机制,专为高分辨率检测上的高效远程空间交互而设计,称为多尺度窗口注意力(MSwin)。它使用了一个窗口金字塔,每个窗口都覆盖了不同的注意力范围,如图 3c 所示。


可变窗口大小的使用可以极大地提高 V2X-ViT 针对定位错误的检测鲁棒性(参见图 5b 中的消融研究)。在较大窗口中执行的注意力可以捕获远程视觉线索以补偿较大的定位错误,而较小的窗口分支在更精细的范围内执行注意力以保留局部上下文。之后,split-attention 模块用于自适应地融合来自多个分支的信息,使 MSwin 能够处理一系列姿势错误。注意,MSwin 独立应用于每个智能体,而不考虑任何智能体间融合;


640.png


形式上,让 image.png 是单个agent的输入特征图。在 k 个平行分支中的分支 j 中,使用窗口大小 image.png 将 H 划分为形状为image.png的张量,它表示一个image.png  每个大小为 image.png 的非重叠patch网格。


使用 image.png 个head来提高第 j 个分支的注意力。更详细的公式可以在附录中找到。作者还考虑了一个额外的相对位置编码 B,它作为添加到注意力图中的偏置项。由于沿每个轴的相对位置位于image.png 范围内,这里从参数化矩阵 image.png 中获取 B。



为了获得每个智能体的多范围空间关系,每个分支将输入张量 H 划分为不同的窗口大小,即image.png 。当使用更大的窗口大小来节省内存使用时,会逐渐减少Head的数量。最后,通过 Split-Attention 模块融合来自所有分支的特征,产生输出特征 Y。



所提出的 MSwin 的复杂性与图像大小 HW 成线性关系,同时享受远程多尺度感受野并自适应地融合两者并行的局部和全局视觉信息。


值得注意的是,与 Swin Transformer 不同,本文多尺度窗口方法不需要掩码、填充或循环移位,使其在实现中更高效,同时具有更大规模的空间交互。


3、延迟感知位置编码


尽管空间扭曲矩阵Γ捕获了全局错位,但也需要考虑另一种类型的局部错位,它是由延迟引起的时间滞后期间的物体运动引起的。为了编码这些时间信息,利用了自适应延迟感知位置编码 (DPE),它由线性投影和可学习嵌入组成。使用以时间延迟 image.png 和通道  image.png为条件的正弦函数对其进行初始化:

640.png


一个线性投影image.png将进一步扭曲可学习的嵌入,从而可以更好地推广到看不见的时延。在输入Transformer之前将这个投影嵌入添加到每个agents的特征image.png中,以便将这些特性预先进行时间对齐。

640.png


3. 实验



3.1 3D检测性能


640.png


3.2 检测可视化


640.png


3.3 Attention map可视化


640.png

640.png


4. 参考


[1].V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer.

相关文章
|
机器学习/深度学习 传感器 算法
【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集
【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集
|
算法 5G 调度
5G 多址接入|带你读《5G空口特性与关键技术》之五
采用正交多址方式,用户间相互不存在干扰。采用非正交多址方式,每个用户的信号有可能与其他用户的信号相互叠加干扰,但是这种干扰通常在接收时可以采用信号处理的方式去除,以还原某个特定用户的信号。
15918 2
5G 多址接入|带你读《5G空口特性与关键技术》之五
|
4月前
|
算法 Python
ABCDE题|2025年华为杯|研究生数学建模|思路、代码、论文|持续更新中....
ABCDE题|2025年华为杯|研究生数学建模|思路、代码、论文|持续更新中....
409 1
|
10月前
|
消息中间件 存储 数据采集
4步实现状态机驱动的MQTT客户端,快速接入OneNet (1)
本文介绍了基于状态机驱动的MQTT客户端快速接入OneNet平台的实现方法,通过4步完成模块设计。文章以开源项目`Sparrow`为基础,引入`OneNetMqtt`业务模块,采用事件驱动模型和双层状态机设计,实现设备状态管理、消息处理及定时任务等功能。模块分为三层:`OneNetManager`负责核心逻辑,`OneNetDevice`管理设备信息,`OneNetDriver`处理Socket与MQTT通信。验证结果显示设备连接、数据上报及下线功能正常,稳定性良好。该设计简化了复杂条件判断,增强了系统灵活性与可扩展性,适用于实际项目参考。文末提供源码获取方式,助力读者实践与学习。
608 106
|
9月前
|
人工智能 搜索推荐 API
RAG vs. MCP: 你不知道你需要的 AI 充电接口
本文通过“充电接口”比喻,对比了两种AI技术:RAG(特定充电口)和MCP(通用充电口)。RAG像专用数据线,每次需连接外部数据库检索信息,适合动态查询;MCP则似USB-C,依靠内置记忆提供快速、个性化响应,适用于长期交互。两者各有优劣,RAG灵活但效率低,MCP高效却可能缺乏最新数据。未来可能是两者的结合:MCP负责上下文记忆,RAG获取最新资讯,实现更自然的AI对话体验。文章还探讨了如何用Apipost设计适配两者的API,助力AI系统开发。
|
Ubuntu Python
全网最简约的Vscode配置Anaconda环境(百分百成功)
全网最简约的Vscode配置Anaconda环境(百分百成功)
33081 0
全网最简约的Vscode配置Anaconda环境(百分百成功)
|
机器学习/深度学习 Linux 开发者
Python必备工具:pip的安装与管理
Python必备工具:pip的安装与管理
1733 0
|
人工智能 监控 算法
智能时代下的AI伦理挑战与应对策略
随着人工智能技术的飞速发展,其在各行各业的应用日益广泛。然而,AI技术带来的便利性背后隐藏着诸多伦理问题,如隐私泄露、算法偏见和责任归属等。本文从技术发展的角度出发,探讨了当前AI技术面临的主要伦理挑战,并提出了相应的应对策略。通过分析不同案例,本文旨在为AI技术的健康发展提供指导性建议,以促进技术创新与社会伦理的和谐共生。
570 0
|
传感器 数据采集 编解码
3D目标检测数据集 DAIR-V2X-V
本文分享国内场景3D目标检测,公开数据集 DAIR-V2X-V(也称为DAIR-V2X车端)。DAIR-V2X车端3D检测数据集是一个大规模车端多模态数据集,包括: 22325帧 图像数据 22325帧 点云数据 2D&3D标注 基于该数据集,可以进行车端3D目标检测任务研究,例如单目3D检测、点云3D检测和多模态3D检测。
1185 0
|
数据可视化 数据挖掘 数据处理
Python对Excel两列数据进行运算【从基础到高级的全面指南】
【7月更文挑战第6天】使用Python的`pandas`库处理Excel数据,涉及安装`pandas`和`openpyxl`,读取数据如`df = pd.read_excel(&#39;data.xlsx&#39;)`,进行运算如`df[&#39;Sum&#39;] = df[&#39;Column1&#39;] + df[&#39;Column2&#39;]`,并将结果写回Excel。`pandas`还支持数据筛选、分组、可视化、异常处理和性能优化。通过熟练运用这些功能,可以高效分析Excel表格。