TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测

简介: TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测


机器之心最新一期线上分享邀请到了清华大学智能视觉实验室组博士生郑文钊,为大家分享他们近期工作 TPVFormer。

当前以视觉为中心的自动驾驶感知主要集中于三维目标检测,然而预测出的三维框描述物体过于粗糙,忽略了物体的几何形状;且仅完成了对前景物体的预测,而忽略了背景环境信息。受此启发,我们主要研究了基于视觉的三维语义占有预测这一新型任务,其输入为环视图片,目标通过对每个体素进行语义标签的预测,生成密集预测的环境表示,使环境感知更加可靠、稳定。本次分享主要介绍纯视觉三维语义占有预测的最新进展,基于 CVPR 2023 的最新论文 Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction。

目前的纯视觉自动驾驶感知方法广泛采用鸟瞰图 (BEV) 表示来描述 3D 场景。尽管它比体素(Voxel)表示效率更高,但单独的 BEV 平面难以描述场景的细粒度 3D 结构,难以很好地完成三维语义占有预测这个任务。针对这个问题,论文提出了一种新型的三维空间表示方法 Tri-Perspective View (TPV),其在 BEV 平面的基础上新增了两个平面,从而可以描述整个三维场景的细粒度结构。为了将图像特征提升到 TPV 空间,我们进一步提出了 TPVFormer 来有效地获得 TPV 特征。

以环视图像作为输入,TPVFormer 仅使用稀疏 LiDAR 语义标签进行训练,但可以有效地预测空间中所有体素的语义占有。此外,TPVFormer 也是首个仅使用图像输入在 nuScenes LiDAR Segmentation 上取得良好性能的方法。代码已经开源 GitHub 仓库,后续将支持更多的三维语义占有预测模型、方法和数据。


分享主题:TPVFormer:面向自动驾驶场景的纯视觉三维语义占有预测

分享嘉宾:郑文钊,清华大学 IVG 组博士生,师从周杰教授和鲁继文副教授,研究方向是计算机视觉和机器学习,主要兴趣包括自动驾驶感知、相似性度量学习和可解释性人工智能,在 TPAMI、CVPR、ICLR 等顶刊及顶会上发表相关论文 17 篇。

分享摘要首先介绍纯视觉三维语义占有预测这个任务的背景及意义,接下来介绍所提出的 Tri-Perspective View(TPV)三维场景表示方法,最后是基于该场景表示方法的 TPVFormer 网络结构以及其在三维语义占有、点云分割、场景语义补全任务上的应用。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/tpvformer

2)论文链接:

https://arxiv.org/abs/2302.07817v1

3)代码仓库:

https://github.com/wzzheng/TPVFormer

https://github.com/wzzheng/OpenOcc

4)项目主页:

https://wzzheng.net/TPVFormer/

相关文章
|
3月前
|
人工智能 自动驾驶 决策智能
DrivingDojo:中科院联合美团推出的自动驾驶数据集,包含视频片段、驾驶操作和驾驶知识
DrivingDojo是由中国科学院自动化研究所与美团无人车团队联合推出的交互式驾驶世界模型数据集,包含18,000个视频片段,涵盖驾驶操作、多智能体交互及开放世界驾驶知识。该数据集为自动驾驶模型的开发提供了坚实基础,并定义了动作指令跟随(AIF)基准,用于评估世界模型在执行动作控制的未来预测能力。
81 6
DrivingDojo:中科院联合美团推出的自动驾驶数据集,包含视频片段、驾驶操作和驾驶知识
|
传感器 机器学习/深度学习 自动驾驶
自动驾驶:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
自动驾驶:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
4203 0
自动驾驶:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
|
传感器 机器学习/深度学习 编解码
最新综述!基于视觉的自动驾驶环境感知(单目、双目和RGB-D)
目相机使用来自单个视点的图像数据作为输入来估计对象深度,相比之下,立体视觉是基于视差和匹配不同视图的特征点,深度学习的应用也进一步提高了准确性。此外,SLAM可以建立道路环境模型,从而帮助车辆感知周围环境并完成任务。本文介绍并比较了各种目标检测和识别方法,然后解释了深度估计的发展,并比较了基于单目、立体和RGB-D传感器的各种方法,接下来回顾并比较了SLAM的各种方法。最后总结了当前存在的问题,并提出了视觉技术的未来发展趋势。
最新综述!基于视觉的自动驾驶环境感知(单目、双目和RGB-D)
|
10月前
|
开发者 Docker Python
深入浅出:使用Docker容器化部署Python Web应用
在当今快速发展的软件开发领域,Docker作为一个开放平台,为开发者提供了将应用打包在轻量级、可移植的容器中的能力,从而简化了部署和管理应用程序的复杂性。本文将通过一个简单的Python Web应用示例,引导读者理解Docker的基本概念、容器化的优势以及如何使用Docker来容器化部署Python Web应用。我们将从零开始,逐步探索创建Dockerfile、构建镜像、运行容器等关键步骤,旨在为读者提供一个清晰、易于理解的指南,帮助他们掌握使用Docker容器化部署应用的技能。
|
10月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
破壁人AI百度:科技公司反内卷的典型样本
44 0
|
7月前
|
机器学习/深度学习 自然语言处理 PyTorch
PyTorch 中的动态图与静态图:理解它们的区别及其应用场景
【8月更文第29天】深度学习框架中的计算图是构建和训练神经网络的基础。PyTorch 支持两种类型的计算图:动态图和静态图。本文旨在阐述这两种计算图的区别、各自的优缺点以及它们在不同场景下的应用。
1556 0
|
10月前
|
编解码 自动驾驶 数据可视化
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测
218 0
|
机器学习/深度学习 决策智能 计算机视觉
计算机视觉实战(十三)停车场车位识别(附完整代码)
计算机视觉实战(十三)停车场车位识别(附完整代码)
270 0
|
人工智能 Python
百度飞桨图像分类------第一天(实现各类图像增广)
百度飞桨图像分类------第一天(实现各类图像增广)
百度飞桨图像分类------第一天(实现各类图像增广)
|
10月前
|
XML 机器学习/深度学习 数据格式
YOLOv8训练自己的数据集+常用传参说明
YOLOv8训练自己的数据集+常用传参说明
9352 0