暂时未有相关云产品技术能力~
暂无个人介绍
本调查回顾了关于BEV感知的最新工作,并对不同解决方案进行了深入分析。此外,还描述了行业中BEV方法的几个系统设计,介绍了一整套实用指南,以提高BEV感知任务的性能,包括相机、激光雷达和融合输入。最后,论文指出了该领域未来的研究方向,希望本报告能为社区提供一些信息,并鼓励更多关于BEV感知的研究工作。
本调查回顾了关于BEV感知的最新工作,并对不同解决方案进行了深入分析。此外,还描述了行业中BEV方法的几个系统设计,介绍了一整套实用指南,以提高BEV感知任务的性能,包括相机、激光雷达和融合输入。最后,论文指出了该领域未来的研究方向,希望本报告能为社区提供一些信息,并鼓励更多关于BEV感知的研究工作。
学习准确的深度对于多视图3D目标检测至关重要。最近的方法主要是从单目图像中学习深度,由于单目深度学习的不适定性,这些方法面临着固有的困难。在本项工作中,作者没有使用单一的单目深度方法,而是提出了一种新颖的环视temporal stereo(STS)技术,该技术利用跨时间帧之间的几何对应关系来促进准确的深度学习。
在自动驾驶领域,3D多目标跟踪(MOT)作为整个感知系统中的关键任务之一发挥着重要作用,它确保了车辆导航和运动规划的高效和安全。大多数现有的MOT方法基于检测,即通过检测跟踪(TBD),并且仅使用单个深度传感器,如激光雷达来检测和跟踪目标。然而,长距离的非常稀疏的点云导致这些方法无法生成非常精确的检测结果,从而影响跟踪结果。因此,本文提出了一种基于传感器融合的3D MOT方法,利用激光雷达和摄像机的检测结果。
基于深度神经网络的目标检测器不断发展,并用于多种应用,每个应用都有自己的一组要求。安全关键型的应用程序需要高精度和可靠性,而低延迟的任务需要节约资源的神经网络结构。实时目标检测器在有高影响力的现实世界应用中是必不可少的,并不断有新方法提出,但它们过分强调精度和速度上的改进,而忽略了其他方面,如多功能性、鲁棒性、资源和能源效率。现有网络的参考基准不存在,新网络设计的标准评估指南也不存在,这导致比较模棱两可和不一致。
基于深度神经网络的目标检测器不断发展,并用于多种应用,每个应用都有自己的一组要求。安全关键型的应用程序需要高精度和可靠性,而低延迟的任务需要节约资源的神经网络结构。实时目标检测器在有高影响力的现实世界应用中是必不可少的,并不断有新方法提出,但它们过分强调精度和速度上的改进,而忽略了其他方面,如多功能性、鲁棒性、资源和能源效率。现有网络的参考基准不存在,新网络设计的标准评估指南也不存在,这导致比较模棱两可和不一致。
近两年,基于纯视觉BEV方案的3D目标检测备受关注,all in one方式,确实能将基于camera的3D检测算法性能提升一大截,甚至直逼激光雷达方案,这次整理了领域中一些备受关注的multi-camera bev纯视觉感知方案,包括DETR3D、BEVDet、ImVoxelNet、PETR、BEVFormer、BEVDepth、BEVDet4D、BEVerse等!
近两年,基于纯视觉BEV方案的3D目标检测备受关注,all in one方式,确实能将基于camera的3D检测算法性能提升一大截,甚至直逼激光雷达方案,这次整理了领域中一些备受关注的multi-camera bev纯视觉感知方案,包括DETR3D、BEVDet、ImVoxelNet、PETR、BEVFormer、BEVDepth、BEVDet4D、BEVerse等!
由于深度信息的缺失,从单目图像估计物体的准确3D位置是一个具有挑战性的问题。之前的工作表明,利用目标的关键点投影约束来估计多个候选深度可以提高检测性能。然而,现有方法只能利用垂直边缘作为深度估计的投影约束。所以这些方法只利用了少量的投影约束,产生的深度候选不足,导致深度估计不准确。论文提出了一种可以利用来自任何方向边缘的密集投影约束方法。通过这种方式,论文使用了更多的投影约束并输出了更多的候选深度。此外,论文提出了一个图匹配加权模块来合并候选深度。本文提出的方法名为DCD(Densely Constrained Detector),在 KITTI 和 WOD基准上实现了最先进的性能。
三维激光雷达传感器在自主车辆感知系统中发挥着重要作用。近年来,激光雷达点云的语义分割发展非常迅速,受益于包括SemanticKITTI和nuScenes在内的注释良好的数据集。然而,现有的激光雷达语义分割方法都是封闭集和静态的。闭集网络将所有输入视为训练过程中遇到的类别,因此它会错误地将旧类的标签分配给新类,这可能会带来灾难性后果。
自监督学习(SSL)已经成功应用于CNN和GNN中,以实现高可迁移、泛化性和鲁棒性的表示学习。但是在自动驾驶运动预测方向的探索工作却比较少。论文首次将自监督学习运用于运动预测,方法名为SSL-Lanes。
在过去几年中,自动驾驶一直是最受欢迎和最具挑战性的话题之一。在实现完全自主的道路上,研究人员利用了各种传感器,如激光雷达、相机、惯性测量单元(IMU)和GPS,并开发了用于自动驾驶应用的智能算法,如目标检测、目标分割、障碍避免和路径规划。近年来,高清晰度(HD)地图引起了广泛关注。
在过去几年中,自动驾驶一直是最受欢迎和最具挑战性的话题之一。在实现完全自主的道路上,研究人员利用了各种传感器,如激光雷达、相机、惯性测量单元(IMU)和GPS,并开发了用于自动驾驶应用的智能算法,如目标检测、目标分割、障碍避免和路径规划。近年来,高清晰度(HD)地图引起了广泛关注。
我相信大家不多不少都会看过我自己做的一些工作,同时也还有我解读RGB-Thermal系列的一些工作,所以这一期我想讨论一下RGB-T目标检测的工作!
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~
Corner cases(CC)是指不经常出现或一些极端的场景数据,也是一种长尾问题的表现形式。然而,对于感知模型来说,CC非常重要,因为在自动驾驶系统的推理过程中,它需要训练、验证和提高感知模型的泛化性能。例如,一辆配备了最先进的目标检测器的车辆在高速公路上疾驰,可能无法及时发现失控的轮胎或翻倒的卡车(如下图)。这些自动驾驶目标检测失败的案例可能会导致严重的后果,危及生命。
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于单目、双目和伪激光雷达数据的相关算法,下面展开讨论下~
今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
电线杆和建筑物的轮廓是城市道路上随处可见的物体,可为计算机视觉提供可靠的提示。为了重复提取它们作为特征并在离散的LiDAR帧之间实现关联以进行点云匹配。本文提出了一个用于LiDAR点云中3D线的基于学习的特征分割和描述子模型。
自动驾驶正成为影响未来行业的关键技术,传感器是自动驾驶系统中感知外部世界的关键,其协作性能直接决定自动驾驶车辆的安全性。本文主要讨论了近年来自动驾驶中多传感器融合的不同策略。分析了常规传感器的性能和多传感器融合的必要性,包括radar、激光雷达、摄像机、超声波、GPS、IMU和V2X。
自动驾驶正成为影响未来行业的关键技术,传感器是自动驾驶系统中感知外部世界的关键,其协作性能直接决定自动驾驶车辆的安全性。本文主要讨论了近年来自动驾驶中多传感器融合的不同策略。分析了常规传感器的性能和多传感器融合的必要性,包括radar、激光雷达、摄像机、超声波、GPS、IMU和V2X。
本文提出统一框架M2BEV,可以在BEV空间中与多镜头图像联合实现3D目标检测和BEV分割。与之前工作的区别在于,M2BEV使用一个模型输出两个任务并提高了效率。M2BEV有效地将多视图2D图像特征转换为ego-car坐标系中的3D BEV特征。这种BEV表示的重要性在于它可以使不同的任务能够共享单个编码器。
在精确检测车速车距的方案中,视觉方案是非常具有挑战性的,但由于没有昂贵的距离传感器而大幅降低成本,所以潜力巨大。本文综述了基于视觉的车辆速度、距离估计。并建立了一个完整的分类法,对大量工作进行分类,对涉及的所有阶段进行分类。除此之外,还提供了详细的性能评估指标和可用数据集概述。最后,论文讨论了当前的局限性和未来的方向。
今天分享图森打榜Waymo开放数据集3D语义分割任务的技术报告,整篇文章读下来比较通透。比较经典的打榜思路,尤其是后面的多任务学习、两阶段优化,有打榜或训练大模型需求的小伙伴可以仔细读读~
目前,在鸟瞰图 (BEV)中检测3D目标要优于其它用于自动驾驶和机器人领域的3D目标检测器。但要将图像特征转化为BEV需要特殊的操作进行特征采样。
环视鱼眼摄像机通常用于自动驾驶中的近距离感知,车辆四面的四个鱼眼摄像头足以覆盖车辆周围的360°范围,捕捉整个近距离区域。一些应用场景包括自动泊车、交通拥堵辅助等
环视鱼眼摄像机通常用于自动驾驶中的近距离感知,车辆四面的四个鱼眼摄像头足以覆盖车辆周围的360°范围,捕捉整个近距离区域。一些应用场景包括自动泊车、交通拥堵辅助等
本文概述了自动驾驶场景中anchor-based检测器常用的模型改进和推理时间优化方法。
多传感器设置价格昂贵,输入单目数据完成3D目标感知在领域内非常重要(特别是自动驾驶)。然而这非常困难,因为单目图像不能为预测绝对深度值提供任何线索。受双目三维目标检测方法的启发,论文利用camera ego-motion提供的强大几何结构,进行精确的物体深度估计和检测。
近年来,自动驾驶因其减轻驾驶员负担、提高行车安全的潜力而受到越来越多的关注。在现代自动驾驶系统中,感知系统是不可或缺的组成部分,旨在准确估计周围环境的状态,并为预测和规划提供可靠的观察结果。3D目标检测可以智能地预测自动驾驶车辆附近关键3D目标的位置、大小和类别,是感知系统的重要组成部分。本文回顾了应用于自动驾驶领域的3D目标检测的进展。
近年来,自动驾驶因其减轻驾驶员负担、提高行车安全的潜力而受到越来越多的关注。在现代自动驾驶系统中,感知系统是不可或缺的组成部分,旨在准确估计周围环境的状态,并为预测和规划提供可靠的观察结果。3D目标检测可以智能地预测自动驾驶车辆附近关键3D目标的位置、大小和类别,是感知系统的重要组成部分。本文回顾了应用于自动驾驶领域的3D目标检测的进展。
自动驾驶在复杂场景下的目标检测任务至关重要,而毫米波雷达和视觉融合是确保障碍物精准检测的主流解决方案。本论文详细介绍了基于毫米波雷达和视觉融合的障碍物检测方法,从任务介绍、评估标准和数据集三方面展开。
以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的BEV感知及其扩展的方法进行了全面的综述调研,并提供了深入的分析和结果比较,进一步思考未来可能的研究方向。如下图所示,目前的工作可以根据视角变换分为两大类,即基于几何变换和基于网络变换。前者利用相机的物理原理,以可解释性的方式转换视图。后者则使用神经网络将透视图(PV)投影到BEV上。
多目标跟踪(MOT)旨在跨视频帧关联目标对象,以获得整个运动轨迹。随着深度神经网络的发展和对智能视频分析需求的增加,MOT在计算机视觉领域的兴趣显著增加。嵌入方法在MOT中的目标位置估计和时间身份关联中起着至关重要的作用,与其他计算机视觉任务(如图像分类、目标检测、重识别和分割)不同,MOT中的嵌入方法有很大的差异,并且从未被系统地分析和总结。本综述首先从七个不同的角度对MOT中的嵌入方法进行了全面概述和深入分析,包括补丁级嵌入、单帧嵌入、跨帧联合嵌入、相关嵌入、顺序嵌入、小轨迹嵌入和跨轨迹关系嵌入。论文进一步总结了现有广泛使用的MOT数据集,并根据其嵌入情况分析了现有最先进方法的优势策略。
一个新颖的半监督LiDAR点云分割框架,有效地利用了LiDAR传感器和自动驾驶场景中的结构先验(spatial prior)对分割模型进行一致性约束,在主流的自动驾驶数据集(nuScenes ,SemanticKITTI ,ScribbleKITTI )上实现了优异的分割性能。
全监督学习需要大量的标签数据,对分割任务而言,人工标注十分昂贵,因此基于框的弱监督实例分割获得了广泛的关注。本文提出一种新的single-shot框监督实例分割方法,将水平集(level-set)与CNN巧妙地结合起来。具体来说,模型以端到端的方式通过基于连续Chan-Vese能量的函数迭代地学习一系列水平集。本文基于SOLOv2上实现弱监督实例分割。
camera和其他传感器相比成本更低,而激光雷达系统的成本很高,因此为不依赖激光雷达构建三维感知系统是一个关键的研究问题。目前主流方法使用多个camera的多视图数据,并将透视图像中的特征“提升”到二维地平面,从而产生车辆周围三维空间的“鸟瞰视图”(BEV)特征表示。最近的研究重点是如何将特征从图像提升到BEV平面。相反,我们提出了一个简单的基线模型,其中“提升”步骤简单地平均了所有投影图像位置的特征,并发现它优于目前SOTA方案的BEV vehicle 分割。消融实验表明,bs_size、数据增强和输入分辨率在很大程度上影响性能。
本文提出了一种新的端到端倒金字塔多任务Transformer算法(InvPT),以在统一的框架中同时对多个空间位置和多任务进行建模。
多模态传感器融合意味着信息互补、稳定和安全,长期以来都是自动驾驶感知的重要一环。然而信息利用的不充分、原始数据的噪声及各个传感器间的错位(如时间戳不同步),这些因素都导致融合性能一直受限。本文全面调研了现有多模态自动驾驶感知算法,传感器包括LiDAR和相机,聚焦于目标检测和语义分割,分析超过50篇文献。同传统融合算法分类方法不同,本文从融合阶段的不同将该领域分类两大类、四小类。此外,本文分析了当前领域存在的问题,对未来的研究方向提供参考。
目标检测在过去几年中取得了显著的进展,然而,由于小目标视觉特征较差、噪声较多,小目标检测已成为计算机视觉中最具有挑战性的任务之一。此外,用于小尺寸目标检测的大规模基准测试数据集仍然不够全面。本文首先对小目标检测方法进行了全面的回顾,除此之外,还构建了两个大规模小目标检测数据集(SODA),SODA-D和SODA-A,分别关注驾驶场景和空中场景。
标注工具是处理原始数据的第一关,无论是检测任务、分割任务还是3D感知、点云等,都需要制作真值来监督网络学习。企业级的标注方案一般通过内部的自研工具或专业标注团队完成,而对于个人或小的团队来说,一款开源好用的标注工具则至关重要,自动驾驶之心为大家汇总了领域常用到的标注工具,涉及2D检测分割/3D检测分割以及多传感器的标定同步。
单目3D目标检测是自动驾驶必不可少的感知任务。然而,对大规模有标签数据的高度依赖使得模型优化过程成本高昂且耗时。为了减少对人工标注的过度依赖,我们提出了Mix-Teaching,这是一种有效的半监督学习框架,可以在训练阶段同时使用标注和无标注的图像。Mix-Teaching首先通过自我学习训练为无标签图像生成伪标签。然后通过将实例级图像块粘贴到空白背景或有标签图像中,在具有更密集和更精确标签的混合图像上训练学生模型。
车道检测是一项具有挑战性的任务,需要预测车道线的复杂拓扑形状并同时区分不同类型的车道。早期的工作遵循自上而下的路线图,将预定义的锚回归到各种形状的车道线,由于锚形状固定,缺乏足够的灵活性来适应复杂的车道形状。
本文提出了三点改进自动驾驶场景下全景分割的方法。首先,本文提出的标签策略统一了四个目前主流的自动驾驶全景分割数据集,并添加了新的车辆标签(皮卡车和货车)来清理混乱的标签。为了将新标签添加至现有设置中,本文提供了Mapillary Vistas、IDD、Cityscapes数据集的完整新标签信息。
语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)
点云和RGB图像是自动驾驶中常用的两种感知数据来源,前者可以提供精确的目标定位,后者包括丰富的语义信息。针对3D目标检测中这两种模态的融合,之前提出的AutoAlign方法提出了一种可学习的范式,但由于全局注意力机制,计算开销很大。为了解决这个问题,本文提出了跨域的DeformCAFA模块,它更加关注跨域关系建模中的稀疏可学习采样点,提高了校准误差的容忍度,从而极大加快了不同模态特征间的融合。为了克服GT-AUG在多模态下的复杂设置,在给定深度信息的情况下,设计了一种简单而有效的交叉模态增强策略。而且,通过采用一种新颖的图像级dropout训练方案,模型能够以动态的方式进行推理。
多任务学习是自动驾驶领域非常重要的一个模块,旨在通过一个网络在较小计算量下实现多个任务,比如分割、检测、关键点、车道线等,除了具有节省计算量的优势外,多任务之间还具有一定的相互辅助作用,比如分割任务会帮助检测任务提升整体性能,下面梳理下自动驾驶领域常用到的一些多任务学习网络;