TPVFormer项目原作解读：面向自动驾驶场景的纯视觉三维语义占有预测-阿里云开发者社区

TPVFormer项目原作解读：面向自动驾驶场景的纯视觉三维语义占有预测

2023-05-25 298

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： TPVFormer项目原作解读：面向自动驾驶场景的纯视觉三维语义占有预测

机器之心最新一期线上分享邀请到了清华大学智能视觉实验室组博士生郑文钊，为大家分享他们近期工作 TPVFormer。

当前以视觉为中心的自动驾驶感知主要集中于三维目标检测，然而预测出的三维框描述物体过于粗糙，忽略了物体的几何形状；且仅完成了对前景物体的预测，而忽略了背景环境信息。受此启发，我们主要研究了基于视觉的三维语义占有预测这一新型任务，其输入为环视图片，目标通过对每个体素进行语义标签的预测，生成密集预测的环境表示，使环境感知更加可靠、稳定。本次分享主要介绍纯视觉三维语义占有预测的最新进展，基于 CVPR 2023 的最新论文 Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction。

目前的纯视觉自动驾驶感知方法广泛采用鸟瞰图 (BEV) 表示来描述 3D 场景。尽管它比体素（Voxel）表示效率更高，但单独的 BEV 平面难以描述场景的细粒度 3D 结构，难以很好地完成三维语义占有预测这个任务。针对这个问题，论文提出了一种新型的三维空间表示方法 Tri-Perspective View （TPV），其在 BEV 平面的基础上新增了两个平面，从而可以描述整个三维场景的细粒度结构。为了将图像特征提升到 TPV 空间，我们进一步提出了 TPVFormer 来有效地获得 TPV 特征。

以环视图像作为输入，TPVFormer 仅使用稀疏 LiDAR 语义标签进行训练，但可以有效地预测空间中所有体素的语义占有。此外，TPVFormer 也是首个仅使用图像输入在 nuScenes LiDAR Segmentation 上取得良好性能的方法。代码已经开源 GitHub 仓库，后续将支持更多的三维语义占有预测模型、方法和数据。

分享主题：TPVFormer：面向自动驾驶场景的纯视觉三维语义占有预测

分享嘉宾：郑文钊，清华大学 IVG 组博士生，师从周杰教授和鲁继文副教授，研究方向是计算机视觉和机器学习，主要兴趣包括自动驾驶感知、相似性度量学习和可解释性人工智能，在 TPAMI、CVPR、ICLR 等顶刊及顶会上发表相关论文 17 篇。

分享摘要：首先介绍纯视觉三维语义占有预测这个任务的背景及意义，接下来介绍所提出的 Tri-Perspective View（TPV）三维场景表示方法，最后是基于该场景表示方法的 TPVFormer 网络结构以及其在三维语义占有、点云分割、场景语义补全任务上的应用。

相关链接：

1）SOTA！模型平台项目主页链接：

https://sota.jiqizhixin.com/project/tpvformer

2）论文链接：

https://arxiv.org/abs/2302.07817v1

3）代码仓库：

https://github.com/wzzheng/TPVFormer

https://github.com/wzzheng/OpenOcc

4）项目主页：