同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读(2)

简介: 同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读

2、用于 3D 目标检测的变形关联网络


网络结构如上图所示。总体而言是基于 FCOS3D 检测器,参考 deformable DETR 设计的网络结构。在 FCOS3D 的基础上,保留其 centerness 和 classification 层,而将其原有的位姿预测层替换为 object embedding 和 reference point 层,用于生成 object query。参考 deformable DETR,我们通过预测相对于 reference point 的偏移量得到 2D 采样位置(也就得到了)。采样后的 feature 经由 attention 操作聚合为 object feature,用于预测物体级别的结果(3D score,weight scale,3D box size 等)。此外,采样后各点的 feature 在加入 object embedding 并经由 self attention 处理后输出各点所对应的的 3D 坐标和关联权重所预测的全部可由 EPro-PnP 的蒙特卡洛位姿损失训练得到,不需要额外正则化就可以收敛并有较高的精度。在此基础上,可以增加导数正则化损失和辅助损失进一步提升精度。

四、实验结果

1、6 自由度位姿估计任务

使用 LineMOD 数据集实验,并严格与 CDPN baseline 进行比对,主要结果如上。可见,增加 EPro-PnP 损失进行端到端训练,精度显著提升(+12.70)。继续增加导数正则化损失,精度进一步提升。在此基础上,使用原版 CDPN 的训练结果初始化并增加 epoch(保持总 epoch 数与原版 CDPN 的完整三阶段训练一致)可以使精度进一步提升,其中预训练 CDPN 的优势部分来源于 CDPN 训练时有额外的 mask 监督。


上图是 EPro-PnP 与各种领先方法的比较。由较落后的 CDPN 改进而来的 EPro-PnP 在精度上接近 SOTA,并且 EPro-PnP 的架构简洁,完全基于 PnP 进行位姿估计,不需要额外进行显式深度估计或位姿精修,因此在效率上也有优势。

2、3D 目标检测任务

使用 nuScenes 数据集实验,与其他方法对比结果如上图所示。EPro-PnP 不仅相对 FCOS3D 有了明显提升,还超越了当时的 SOTA、FCOS3D 的另一个改进版本 PGD。更重要的是,EPro-PnP 目前是唯一在 nuScenes 数据集上使用几何优化方法估计位姿的。因 nuScenes 数据集规模较大,端到端训练的直接位姿估计网络已具有较好性能,而我们的结果说明了端到端地训练基于几何优化的模型能做到在大数据集上取得更加优异的性能。

3、可视化分析

上图显示了用 EPro-PnP 训练的稠密关联网络的预测结果。其中,关联权重对图像中的重要区域进行了高光,类似于 attention 机制。由损失函数分析可知,高光区域对应的是重投影不确定性较低以及对位姿变动较为敏感的区域。


3D 目标检测的结果如上图所示。其中左上视图显示了变形关联网络采样出的 2D 点位置,红色表示水平 X 分量较高的带你,绿色表示垂直 Y 分量较高的点。绿色点一般位于物体上下两端,其主要作用是通过物体高度来推算物体的距离,这一特性并非人为指定,完全是自由训练的结果。右图显示了俯视图上的检测结果,其中蓝色云图表示物体中心点位置的分布密度,反映了物体定位的不确定性。一般远处的物体定位不确定性大于近处的物体。


EPro-PnP 的另一重要优势在于,能够通过预测复杂的多峰分布来表示朝向的模糊性。如上图所示,Barrier 由于物体本身旋转对称,朝向经常出现相差 180° 的两个峰值;Cone 本身没有特定的朝向,因此预测结果在各个方向均有分布;Pedestrian 虽不完全旋转对称,但因图像不清晰,不易判断正面和背面,有时也会出现两个峰值。这一概率特性使得 EPro-PnP 对于对称物体不需要在损失函数上做任何特殊处理。

五、总结

EPro-PnP 将原本不可导的最优位姿转变为可导的位姿概率密度,使得基于 PnP 几何优化的位姿估计网络可实现稳定且灵活的端到端训练。EPro-PnP 可应用于一般的 3D 物体位姿估计问题,即使在未知 3D 物体几何形状的情况下,也可以通过端到端训练学习得到物体的 2D-3D 关联点。因此,EPro-PnP 拓宽了网络设计的可能性,例如我们提出的变形关联网络,这在以往是不可能训练的。此外,EPro-PnP 也可以直接被用于改进现有的基于 PnP 的位姿估计方法,通过端到端训练释放现有网络的潜力,提升位姿估计精度。从更一般的意义来说,EPro-PnP 本质是将常见的分类 softmax 带入到了连续域,不仅可用于其他基于几何优化的 3D 视觉问题,理论上还可以推广至训练一般的嵌套了优化层的模型。

相关文章
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
152 0
|
11月前
|
机器学习/深度学习 达摩院 算法
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读(1)
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读
|
机器学习/深度学习 人工智能 自然语言处理
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
深度生成模型可以在高分辨率下进行逼真的图像合成。但对于许多应用来说,这还不够:内容创作还需要可控。虽然最近有几项工作研究了如何分解数据中的潜在变化因素,但它们大多在二维中操作,忽略了我们的世界是三维的。
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
|
人工智能 自然语言处理 前端开发
EMNLP 2021奖项公布,剑桥刘方宇、哥大杨子小帆一作论文分获最佳长、短论文奖
最佳长论文、最佳短论文的一作都是正在读博的华人学者。
226 0
EMNLP 2021奖项公布,剑桥刘方宇、哥大杨子小帆一作论文分获最佳长、短论文奖
|
机器学习/深度学习 vr&ar 图形学
CVPR 2020华人一作包揽最佳论文、最佳学生论文,中国作者占39%,清华高居第一
机器之心编辑部 在刚刚开幕的 CVPR 2020 上,最佳论文、最佳学生论文等奖项悉数公布,来自牛津大学的吴尚哲等人获得了最佳论文奖,本科毕业于上海交通大学、现为西蒙弗雷泽大学博士一年级学生 Zhiqin Chen 等人获得最佳学生论文。
219 0
CVPR 2020华人一作包揽最佳论文、最佳学生论文,中国作者占39%,清华高居第一
|
机器学习/深度学习 存储 人工智能
NeurIPS 2020奖项出炉:GPT-3等三项研究获最佳论文奖,华人一作论文获时间检验奖
一万八千人参会的NeurIPS 2020 相比去年数量暴涨了三成,在大会上,1750 亿参数模型 GPT-3 再次成为了人们热议的话题。
142 0
NeurIPS 2020奖项出炉:GPT-3等三项研究获最佳论文奖,华人一作论文获时间检验奖
|
机器学习/深度学习 数据采集 人工智能
他们创造了横扫NLP的XLNet:专访CMU博士杨植麟
Transformer XL 和 XLNet 是最近自然语言处理(NLP)领域里最热的话题之一,而它们都是 CMU 博士生 戴自航、杨植麟等人的工作。今年 6 月,CMU 与谷歌大脑提出的 XLNet 在 20 个任务上超过 BERT,并在 18 个任务上取得当前最佳效果的表现。
515 0
他们创造了横扫NLP的XLNet:专访CMU博士杨植麟
|
机器学习/深度学习 人工智能 算法
华人问鼎CVPR!最佳论文、最佳学生论文一作均为华人,近四成作者来自中国,清华为最高产机构
华人问鼎CVPR!最佳论文、最佳学生论文一作均为华人,近四成作者来自中国,清华为最高产机构
295 0
|
机器学习/深度学习 人工智能 自然语言处理
NLP顶会NAACL-HLT论文奖名单发布,BERT获最佳长论文奖
自然语言处理领域优秀论文巡礼
424 0
|
机器学习/深度学习 人工智能 算法
AAAI 2019 四个杰出论文奖论文揭晓
一半都是强化学习论文
538 0