【论文解读】MV3D-Net 用于自动驾驶的多视图3D目标检测网络

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: ​MV3D-Net融合了视觉图像和激光雷达点云信息;它只用了点云的俯视图和前视图,这样既能减少计算量,又保留了主要的特征信息。随后生成3D候选区域,把特征和候选区域融合后输出最终的目标检测框。论文地址:Multi-View 3D Object Detection Network for Autonomous Driving开源代码:GitHub - bostondiditeam/MV3D: Multi-View 3D Object Detection Network for Autonomous Driving

 一、框架了解

先看下总体网络结构:(可以点击图片放大查看)

image.gif

上图中的紫色圆圈中M是表示 :基于元素的均值。

输入的数据:有三种,分别是点云俯视图、点云前视图和二维RGB图像。“点云投影”,其实并非简单地把三维压成二维,而是提取了高程、密度、光强等特征,分别作为像素值,得到的二维投影图片。

输出数据:类别标签、3D边界框、时间戳。


1.1 网络的主体部分

image.gif

思路流程:

1)提取特征

    • a. 提取点云俯视图特征
    • b. 提取点云前视图特征
    • c. 提取图像特征

    2)从点云俯视图特征中计算候选区域

    3)把候选区域分别与1)中a、b、c得到的特征进行整合

      • a. 把俯视图候选区域投影到前视图和图像中
      • b. 经过ROI pooling整合成同一维度


      1.2 网络的融合部分

      这部分网络主要是:把整合后的数据经过网络进行融合

      image.gif



      二、MV3D的点云处理

      MV3D将点云和图片数据映射到三个维度进行融合,从而获得更准确的定位和检测的结果。这三个维度分别为点云的俯视图、点云的前视图以及图片。

      image.gif

      2.1 提取点云俯视图

      点云俯视图由高度强度密度组成;作者将点云数据投影到分辨率为0.1的二维网格中。

      高度图的获取方式为:将每个网格中所有点高度的最大值记做高度特征。为了编码更多的高度特征,将点云被分为M块,每一个块都计算相应的高度图,从而获得了M个高度图

      强度图的获取方式为:每个单元格中有最大高度的点的映射值。

      密度图的获取方式为:统计每个单元中点云的个数,并且按照公式:

      image.gif编辑

      其中N为单元格中的点的数目。强度和密度特征计算的是整个点云,而高度特征是计算M切片,所以,总的俯视图被编码为(M + 2)个通道的特征。


      2.2 提取点云前视图

      由于激光点云非常稀疏的时候,投影到2D图上也会非常稀疏。相反,作者将它投影到一个圆柱面生成一个稠密的前视图。 假设3D坐标为:

      image.gif编辑

      那么前视图坐标:

      image.gif编辑

      可以通过如下式子计算

      image.gif


      三、MV3D的图像处理

      采用经典的VGG-16来提取图像特征,这里就不过多说明了。


      四、俯视图计算候选区域

      物体投射到俯视图时,保持了物体的物理尺寸,从而具有较小的尺寸方差,这在前视图/图像平面的情况下不具备的。在俯视图中,物体占据不同的空间,从而避免遮挡问题。

      在道路场景中,由于目标通常位于地面平面上,并在垂直位置的方差较小,可以为获得准确的3Dbounding box提供良好基础。

      候选区域网络就是熟悉的RPN。参考


      五、特征整合

      把候选区域分别与提取的特征进行整合

      image.gif

      流程:

        • a. 把俯视图候选区域投影到前视图和图像中
        • b. 经过ROI pooling整合成同一维度


        六、特征融合

        有了整合后的数据,需要对特征进行融合,最终得到类别标签、3D边界框。

        作者介绍了三种不同的融合方式,分别为

        • a、Early Fusion 早期融合
        • b、Late Fusion 后期融合
        • c、Deep Fusion 深度融合。

        各自的结构如下图所示。

        image.gif

        上图中的紫色圆圈中M是表示 :基于元素的均值。C是表示:串接。

        最终选择了Deep Fusion 深度融合。融合的特征用作:分类任务(人/车/...)、更精细化的3D Box回归(包含对物体朝向的估计)。


        七、模型效果

        和其他模型对比的数据:

        image.gif编辑

        image.gif

        检测效果:

        image.gif


        八、模型代码

        代码地址:GitHub - bostondiditeam/MV3D: Multi-View 3D Object Detection Network for Autonomous Driving

        作者使用KITTI提供的原始数据,点击链接

        image.gif

        上图是用于原型制作的数据集 。

        我们使用了[同步+校正数据] + [校准](校准矩阵)+ [轨迹]()

        所以输入数据结构是这样的:

        image.gif

        运行 src/data.py 后,我们获得了 MV3D 网络所需的输入。它保存在kitti中。

        image.gif

        上图是激光雷达俯视图(data.py后)

        image.gif

        上图是将 3D 边界框投影回相机图像中。

        输入具体数据格式可以参考'data.py' 'data.py' 网址

        本文参考:自动驾驶|3D目标检测:MV3D-Net(一) - 知乎【3D物体检测】MV3D论文和代码解析 - 知乎

        点云深度学习在自动驾驶中的应用——MV3D文章阅读 - 腾讯云开发者社区-腾讯云


        image.gif

        论文地址:Multi-View 3D Object Detection Network for Autonomous Driving

        代码地址:GitHub - bostondiditeam/MV3D: Multi-View 3D Object Detection Network for Autonomous Driving

        本文只提供参考学习,谢谢。

        相关文章
        |
        7天前
        |
        机器学习/深度学习 编解码 计算机视觉
        RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
        RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
        31 10
        RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
        |
        4月前
        |
        机器学习/深度学习 人工智能
        类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
        【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
        98 3
        |
        23天前
        |
        机器学习/深度学习 人工智能 搜索推荐
        PaSa:字节跳动开源学术论文检索智能体,自动调用搜索引擎、浏览相关论文并追踪引文网络
        PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体,能够自动调用搜索引擎、阅读论文并追踪引文网络,帮助用户快速获取精准的学术文献。
        184 15
        |
        11天前
        |
        机器学习/深度学习 编解码 计算机视觉
        YOLOv11改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
        YOLOv11改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
        31 0
        YOLOv11改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
        |
        1月前
        |
        负载均衡 芯片 异构计算
        NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
        NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。
        |
        1月前
        |
        SQL Cloud Native API
        NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
        NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
        |
        3月前
        |
        网络协议 Unix Linux
        精选2款C#/.NET开源且功能强大的网络通信框架
        精选2款C#/.NET开源且功能强大的网络通信框架
        109 0
        |
        3月前
        |
        网络协议 网络安全 Apache
        一个整合性、功能丰富的.NET网络通信框架
        一个整合性、功能丰富的.NET网络通信框架
        |
        2月前
        |
        监控 前端开发 API
        一款基于 .NET MVC 框架开发、功能全面的MES系统
        一款基于 .NET MVC 框架开发、功能全面的MES系统