TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测

简介: TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测


机器之心最新一期线上分享邀请到了清华大学智能视觉实验室组博士生郑文钊,为大家分享他们近期工作 TPVFormer。

当前以视觉为中心的自动驾驶感知主要集中于三维目标检测,然而预测出的三维框描述物体过于粗糙,忽略了物体的几何形状;且仅完成了对前景物体的预测,而忽略了背景环境信息。受此启发,我们主要研究了基于视觉的三维语义占有预测这一新型任务,其输入为环视图片,目标通过对每个体素进行语义标签的预测,生成密集预测的环境表示,使环境感知更加可靠、稳定。本次分享主要介绍纯视觉三维语义占有预测的最新进展,基于 CVPR 2023 的最新论文 Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction。

目前的纯视觉自动驾驶感知方法广泛采用鸟瞰图 (BEV) 表示来描述 3D 场景。尽管它比体素(Voxel)表示效率更高,但单独的 BEV 平面难以描述场景的细粒度 3D 结构,难以很好地完成三维语义占有预测这个任务。针对这个问题,论文提出了一种新型的三维空间表示方法 Tri-Perspective View (TPV),其在 BEV 平面的基础上新增了两个平面,从而可以描述整个三维场景的细粒度结构。为了将图像特征提升到 TPV 空间,我们进一步提出了 TPVFormer 来有效地获得 TPV 特征。

以环视图像作为输入,TPVFormer 仅使用稀疏 LiDAR 语义标签进行训练,但可以有效地预测空间中所有体素的语义占有。此外,TPVFormer 也是首个仅使用图像输入在 nuScenes LiDAR Segmentation 上取得良好性能的方法。代码已经开源 GitHub 仓库,后续将支持更多的三维语义占有预测模型、方法和数据。


分享主题:TPVFormer:面向自动驾驶场景的纯视觉三维语义占有预测

分享嘉宾:郑文钊,清华大学 IVG 组博士生,师从周杰教授和鲁继文副教授,研究方向是计算机视觉和机器学习,主要兴趣包括自动驾驶感知、相似性度量学习和可解释性人工智能,在 TPAMI、CVPR、ICLR 等顶刊及顶会上发表相关论文 17 篇。

分享摘要首先介绍纯视觉三维语义占有预测这个任务的背景及意义,接下来介绍所提出的 Tri-Perspective View(TPV)三维场景表示方法,最后是基于该场景表示方法的 TPVFormer 网络结构以及其在三维语义占有、点云分割、场景语义补全任务上的应用。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/tpvformer

2)论文链接:

https://arxiv.org/abs/2302.07817v1

3)代码仓库:

https://github.com/wzzheng/TPVFormer

https://github.com/wzzheng/OpenOcc

4)项目主页:

https://wzzheng.net/TPVFormer/

相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
基于深度学习的地面垃圾识别分类技术
AI垃圾分类系统结合深度学习和计算机视觉技术,实现高效、精准的垃圾识别与自动分类。系统集成高精度图像识别、多模态数据分析和实时处理技术,适用于市政环卫、垃圾处理厂和智能回收设备,显著提升管理效率,降低人工成本。
基于深度学习的地面垃圾识别分类技术
|
1月前
|
自动驾驶 计算机视觉
单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024
【10月更文挑战第25天】单目三维物体检测在自动驾驶领域具有重要应用价值,但训练数据和测试数据的分布差异会影响模型性能。为此,研究人员提出了一种名为“单目测试时适应”(MonoTTA)的方法,通过可靠性驱动的适应和噪声防护适应两个策略,有效处理测试时的数据分布变化,提高模型在未知数据上的泛化能力。实验结果表明,MonoTTA方法在KITTI和nuScenes数据集上显著提升了性能。
27 2
|
3月前
|
人工智能 并行计算 测试技术
AI计算机视觉笔记三十一:基于UNetMultiLane的多车道线等识别
该项目基于开源数据集 VIL100 实现了 UNetMultiLane,用于多车道线及车道线类型的识别。数据集中标注了六个车道的车道线及其类型。项目详细记录了从环境搭建到模型训练与测试的全过程,并提供了在 CPU 上进行训练和 ONNX 转换的代码示例。训练过程约需 4 小时完成 50 个 epoch。此外,还实现了视频检测功能,可在视频中实时识别车道线及其类型。
|
7月前
|
机器学习/深度学习 算法 数据挖掘
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
779 1
|
6月前
|
人工智能 自然语言处理
高质量3D生成最有希望的一集?GaussianCube在三维生成中全面超越NeRF
【6月更文挑战第24天】论文《Language Models as Text-Based World Simulators?》由多所名校和机构合作完成,探讨大型语言模型(LLMs)如GPT-4是否能胜任世界模拟器角色。新基准BYTE-SIZED32-State-Prediction用于评估其模拟文本游戏状态转换的能力。结果显示,GPT-4在某些任务上接近人类表现,但在算术、常识推理和环境动态模拟上仍有不足,表明LLMs尚无法成为可靠的全功能世界模拟器。研究指出了LLMs改进和未来研究的潜力方向。[[1](https://arxiv.org/pdf/2403.19655)]
55 1
|
6月前
|
机器学习/深度学习 算法
【机器学习】剪贴画图像等文本引导运动生成技术革新
【机器学习】剪贴画图像等文本引导运动生成技术革新
54 1
|
7月前
|
机器学习/深度学习 算法 决策智能
微美全息开发RPSSC技术在高光谱图像分类领域取得重要突破
随着高光谱遥感技术的发展,对于高光谱图像的更加精准的处理需求逐渐增加。在农业、环境监测、资源管理等领域,对高光谱图像进行准确分类是实现智能决策和资源优化利用的基础。
|
机器学习/深度学习 人工智能 供应链
当 AI 遇上合成生物,人造细胞前景几何?
当 AI 遇上合成生物,人造细胞前景几何?
113 0
|
机器学习/深度学习 人工智能 并行计算
清华&天津大学新作 | SurroundOcc: 面向自动驾驶场景的纯视觉 3D 语义占据预测 (已开源)
清华&天津大学新作 | SurroundOcc: 面向自动驾驶场景的纯视觉 3D 语义占据预测 (已开源)
426 0
|
机器学习/深度学习 传感器 编解码
毫米波雷达在多模态视觉任务上的近期工作及简析(上)
在近些年,2D检测任务在自动驾驶的热度递减,取而代之的是3D任务,毕竟现在的实际场景一直多是基于3D场景。但是在3D检测或者分割等任务中,雷达赋予了一个不一样的角色,在之前FOV视角中,毫米波点云大多为了与FOV特征融合,都是通过投影这一种方法,而放到3D场景中,分为两个流派:一个是点云流派:由于lidar和radar具有天然的相似性(当然是处理后的点云),自然就有lidar的相关角色赋予毫米波雷达,相应的,毫米波的角色从FOV到了BEV,它的下游任务,也从辅助为主到BEV下的分割、深度估计、生成密集点云等。
毫米波雷达在多模态视觉任务上的近期工作及简析(上)
下一篇
DataWorks