多模态最新Benchmark!aiMotive DataSet:远距离感知数据集(下)

简介: 本文引入了一个多模态数据集,用于具有远程感知的鲁棒自动驾驶。该数据集由176个场景组成,具有同步和校准的激光雷达(Lidar)、相机和毫米波雷达(Radar),覆盖360度视场。所收集的数据是在白天、夜间和下雨时在高速公路、城市和郊区捕获的,并使用具有跨帧一致标识符的3D边界框进行标注。此外,本文训练了用于三维目标检测的单模态和多模态基线模型。

实验



640.png


本文使用公开可用的模型在本文的数据集上训练了几个三维目标检测基线。为了利用位于较远区域的标注,本文将目标网格定义为纵向[-204.8,204.8]m和横向[-25.6,25.6]m。本文将包含在数据集中的14个类别映射为四个类别(轿车、卡车/公共汽车、摩托车和行人),并在鸟瞰(BEV)空间以类别不可知的方式使用全点和11点插值平均精度(AP)度量[4]评估模型的性能。匈牙利方法[11]用于将ground truth和预测与0.3 IOU阈值联系起来。本文选择了一个小的IOU值作为关联阈值来处理BEV中在远距离区域特别频繁的位移误差。此外,利用平均方位相似度(AOS)[6]度量来评价模型在方位预测方面的性能。


1. 基线模型


本文的基线模型基于VoxelNet[30]、BevDepth[12]和BevFusion[14]用于激光雷达、相机和多模态模型。由于BevFusion不使用毫米波雷达传感器,本文为Lidar-Radar Fusion设计了一个简单的解决方案。也就是说,本文把毫米波雷达点云看作一个规则的激光雷达点云。经过点云合并步骤后,Voxelnet可以像处理常规激光雷达点云一样处理来自不同模态的数据。


Voxelnet具有直接在点云上操作的能力,由三个主要部分组成。体素特征编码器(VFE)负责在单个体素级别对原始点云进行编码。Voxelnet利用堆叠的VFE层,其输出由中间卷积神经网络(CNN)进一步处理,以聚集体素特征。执行3D目标检测的最后一个组件是区域建议网络[22]。


BevDepth是一个只需摄像头的三维目标检测网络,提供可靠的深度估计。作者的主要观察是,最近使用像素深度估计的仅摄像机的三维目标检测方案由于深度估计不足而产生次优结果。因此,显式深度监督编码的内参和外参被利用。此外,利用激光雷达点云的稀疏深度数据引入了深度校正子网络,为深度估计网络提供监督。


BEVFusion的主要贡献是利用BEV空间作为摄像机和激光雷达传感器融合的统一表示。BevFusion提出的图像主干显式地预测每个图像像素的离散深度分布,类似于BevDepth(没有深度校正子网络)。然后,对三维特征点云应用BEV池化算子,然后沿Z轴对其进行展平,得到BEV中的特征映射。激光雷达产生的点云的处理方式与Voxelnet的处理方式相同,两个BEV特征图由CNN融合。最后,将检测头附加到融合子网络的输出上。


2. 实施细节


基线模型的激光雷达组件使用HardSimpleVFE[28]作为体素特征编码器,使用SparseEncoder[28]作为中间编码器CNN。图像组件采用Lift-Splat-Shot[19]作为图像编码器,具有Resnet-50主干,随后是用于利用多尺度特征的特征金字塔网络[13]。一个额外的深度校正网络也是图像流的一部分,灵感来自BEVDepth。在多模态模型的情况下,不同模态的特征使用由卷积和挤压激励组成的简单融合子网络来融合[7]。最后,Centerpoint[29]头负责从单峰和多峰情况下的BEV特征中检测对象。


由于本文的目标不是在这项工作中开发最先进的模型,而是为了促进多模态目标探测研究,本文使用了BEVDEPTH提供的超参数,而没有进行任何繁重的参数调整。本文调整了网格分辨率,以支持远程检测,并使用批量大小4,训练模型,使用BEV特征空间中的翻转、旋转和缩放,以6.25e-5的学习速率进行16K迭代(3个 epochs)。本文使用了一个NVIDIA A100 TensorCore GPU进行神经网络训练。这些模型是用MMDetection3D实现的。


3. 实验结果


640.png

在Tab 4中描述了基线模型在不同度量上的性能比较。由于文献中有几个例子[14,20]说明了仅用激光雷达的单峰解优于仅用摄像机的模型,所以本文没有训练仅用摄像机的基线。正如表中所描述的,在非不利的天气和时间下,每个多模态模型在公路和城市环境中都超过了LIDAR-ONLY基线。在密集的城市环境中,附加的传感器信号显著提高了检测性能。然而,单峰基线在大雨中表现最好,人们会认为毫米波雷达信号应该有助于提高性能。这一现象表明,更复杂的毫米波雷达融合技术可能有利于增强多模态模型。


摄像机在方位预测方面起着至关重要的作用。没有RGB图像的模型难以始终如一地保持方向,尤其是在大型车辆的情况下。这种闪烁效应(flickering effect)在使用相机传感器的模型中不太明显。使用所有模态的模型在AOS指标上表现最好。


令人惊讶的是,使用激光雷达+相机模态的模型在夜间和城市环境中的表现远远超过了所有其他模型。本文研究了学习曲线,发现增加训练步数有助于进一步提高性能。为了验证本文的假设,本文对本文的模型进行了5个额外的时间点的训练。不幸的是,使用相机传感器的模型在第三个epoch后变得不稳定,导致深度损失爆炸。Tab 5描述了使用11点插值AP度量的更长训练过程的结果。在所有环境中都可以看到坚实的改进,尤其是在雨天验证集(激光雷达和激光雷达+雷达模型分别为+10.8/+6.2AP)上。这可以用训练越长,探测热图越清晰的事实来解释。在第一组基线模型的情况下,模糊的热图导致AP指标较低。在大雨的情况下,由于雨滴的激光雷达反射,热图上的模糊效果在EGO汽车周围非常明显。


为了验证基线模型的远距离感知能力,本文对长期训练的模型进行了远距离目标检测的基准测试。在距离EGO汽车不到75米的地方,探测和ground truth被过滤掉。结果总结在Tab 6中(定性例子见图8)。两种模型在公路环境下的性能相似,没有显著差异。然而,在所有其他环境中,带有额外毫米波雷达信号的模型明显优于仅使用激光雷达的基线。事实上,如图7所示,毫米波雷达传感器即使在恶劣天气下也提供用于感知远处区域中的对象的可靠且准确的信号,可以被用于提高3D目标检测器的性能。在密集的城市环境中也可以观察到类似的效果,在这种环境中,毫米波雷达信号被多模态基线利用,从而导致远距离感知性能的显著提高(+5.5/+4.7全点/11点插值AP)。


训练结果表明,该数据集可以作为多模态远距离感知神经网络训练的基础。诸如测试时间延长或模型集成等先进的评估技术可以导致进一步的改进。但是,在评估方法的过程中,没有一个被应用。Tab 5表明需要进一步改进传感器融合方法以充分利用每一种模态,本文的朴素方法提供了一个次优解。尽管如此,本文希望研究界会发现本文的数据集是有用的,可以在本文基线的基础上进行构建,并显著提高其性能。


640.png

表6,远区(>75m)基线模型的比较。第一组:全点AP度量,第二组:11点插值AP度量,第三组:Val-set上平均的AOS度量。

640.png

image.png


图8。定性结果:激光雷达+毫米波雷达基线模型的检测。上排:激光雷达点云检测。中排:毫米波雷达目标检测,下排(从左到右):左、前、右、后摄像头检测。


总结



本文提出了一个多模态数据集用于鲁棒的远程感知自动驾驶。本文在两大洲的三个国家记录的不同数据集包括来自激光雷达、毫米波雷达和摄像机的传感器数据,提供冗余的360度传感器覆盖。该数据集包含了大量远距离区域的标注对象,使得多模态远程感知神经网络的开发成为可能。此外,本文开发了几个单模态和多模态基线模型,并比较了它们在所提出的数据集上基于不同标准的性能。本文的数据集充分利用了记录的传感器模态的优势,可以用于训练、多模态、远程感知神经网络。在未来,本文的目标是扩展本文收集的数据集与额外的环境和天气条件。此外,本文还将对多模态神经网络的传感器融合进行更深入的实验。本文期望通过发布本文的数据集来促进多模态传感器融合和鲁棒的远程感知系统的研究。


参考



[1] Matuszka T, Barton I, Butykai Á, et al. aiMotive Dataset: A Multimodal  Dataset for Robust Autonomous Driving with Long-Range Perception[J].  arXiv preprint arXiv:2211.09445, 2022.


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
人工智能
港科大等发布多模态图推理问答数据集GITQA
【2月更文挑战第14天】港科大等发布多模态图推理问答数据集GITQA
285 7
港科大等发布多模态图推理问答数据集GITQA
|
并行计算 Linux 计算机视觉
还在手工标注数据集?快来试一试自动化多模型标注大模型-gui交互式标注(部署运行教程-高效生产力)
还在手工标注数据集?快来试一试自动化多模型标注大模型-gui交互式标注(部署运行教程-高效生产力)
|
4月前
|
机器学习/深度学习 传感器 监控
基于多模态感知的工业安全行为识别技术突破
本项目通过分层特征增强架构,突破工业安全监控中微小目标检测难、行为理解缺失和响应延迟高等技术瓶颈。采用动态ROI聚焦、时空域建模与联邦学习等创新技术,实现厘米级行为捕捉,准确率提升300%,隐患识别响应速度提高112倍,并已在危化、电力、医疗等行业落地应用,具备广阔推广前景。
234 0
|
5月前
|
人工智能 IDE 搜索推荐
通义灵码2.5评测:从编程智能体到记忆感知的AI编码革命
通义灵码2.5版本更新带来了多项新功能,包括Lingma IDE的开箱即用体验、编程智能体模式实现端到端编码任务、MCP工具集成扩展AI助手能力以及Qwen3模型升级大幅提升代码生成准确性和效率。此外,新增长期记忆与上下文感知功能,使开发更个性化和高效。尽管存在一些局限性,如复杂业务逻辑仍需人工干预,但整体显著提升了开发效率。官方还提供了高质量视频课程助力用户学习。
1016 10
|
6月前
|
机器学习/深度学习 人工智能 关系型数据库
通义 CoGenAV 大模型音画同步感知,重新定义语音理解边界
CoGenAV 是一种创新的多模态语音理解模型,核心理念是实现“音画同步”的深度理解。通过学习 audio-visual-text 的时序对齐关系,构建更鲁棒、更通用的语音表征框架。它在视觉语音识别(VSR)、音视频语音识别(AVSR)、语音增强与分离(AVSE/AVSS)及主动说话人检测(ASD)等任务中表现出色,尤其在嘈杂环境下性能显著提升。仅需 223 小时数据训练即可媲美传统数千小时数据的效果,大幅降低训练成本。CoGenAV 支持主流平台如 GitHub、HuggingFace 和 ModelScope,助力多场景应用开发。
634 10
|
5月前
|
人工智能 IDE 定位技术
通义灵码 AI IDE 正式上线,智能体自动写代码,首创自动记忆,工程感知全面升级
阿里云发布的通义灵码AI IDE深度适配千问3大模型,集成智能编码助手功能,支持编程智能体、工具调用、工程感知等能力。其核心亮点包括:支持最强开源模型千问3,全面集成通义灵码插件能力,自带编程智能体模式,支持长期记忆与行间建议预测(NES)。通义灵码已覆盖主流IDE,助力开发者实现高效智能编程,插件下载量超1500万,生成代码超30亿行,成为国内最受欢迎的辅助编程工具。立即体验更智能的开发流程!
1861 1
|
数据采集 文字识别 测试技术
智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
近年来,视觉语言模型(VLM)取得了显著进展,然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。为解决以上问题,进一步提升开源模型的性能,2024年10月25日,智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。
|
6月前
|
机器学习/深度学习 传感器 算法
基于多模态感知与深度学习的智能决策体系
本系统采用“端-边-云”协同架构,涵盖感知层、计算层和决策层。感知层包括视觉感知单元(800万像素摄像头、UWB定位)和环境传感单元(毫米波雷达、TOF传感器)。边缘侧使用NVIDIA Jetson AGX Orin模组处理多路视频流,云端基于微服务架构实现智能调度与预测。核心算法涵盖人员行为分析、环境质量评估及路径优化,采用DeepSORT改进版、HRNet-W48等技术,实现高精度识别与优化。关键技术突破包括跨摄像头协同跟踪、小样本迁移学习及实时推理优化。实测数据显示,在18万㎡商业体中,垃圾溢流检出率达98.7%,日均处理数据量达4.2TB,显著提升效能并降低运营成本。
342 7
|
10月前
|
人工智能 JSON API
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。
520 77
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
|
8月前
|
数据采集 人工智能 文字识别
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集,旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式问答对,支持知识问答、推理任务和创造性任务。
407 10
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好

热门文章

最新文章

下一篇
oss云网关配置