同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读(1)

简介: 同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读

距离 CVPR 2022 各大奖项公布没多久,来自同济大学研究生、阿里达摩院研究型实习生陈涵晟为我们解读最佳学生论文奖。


本文解读我们获得 CVPR 2022 最佳学生论文奖的工作《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》。论文研究的问题是基于单张图像估计物体在 3D 空间中的位姿。现有方法中,基于 PnP 几何优化的位姿估计方法往往通过深度网络提取 2D-3D 关联点,然而因为位姿最优解在反向传播时存在不可导的问题,难以实现以位姿误差作为损失对网络进行稳定的端到端训练,此时 2D-3D 关联点依赖其他代理损失的监督,这对于位姿估计而言不是最佳的训练目标。为解决这一问题,我们从理论出发,提出了 EPro-PnP 模块,其输出位姿的概率密度分布而非单一的位姿最优解,从而将不可导的最优位姿替换为了可导的概率密度,实现了稳定的端到端训练。EPro-PnP 通用性强,适用于各类具体任务和数据,可以用于改进现有的基于 PnP 的位姿估计方法,也可以借助其灵活性训练全新的网络。从更一般的意义来说,EPro-PnP 本质是将常见的分类 softmax 带入到了连续域,理论上可以推广至训练一般的嵌套了优化层的模型。


一、前言


我们研究的是 3D 视觉中的一个经典问题:基于单张 RGB 图像定位其中的 3D 物体。具体而言,给定一张含有 3D 物体投影的图像,我们的目标是确定物体坐标系到相机坐标系的刚体变换。这一刚体变换被称为物体的位姿,记作 y,其包含两部分:1)位置(position)分量,可用 3x1 的位移向量 t 表示,2)朝向(orientation)分量,可用 3x3 的旋转矩阵 R 表示。


针对这一问题,现有方法可以分为显式和隐式两大类。显式方法也可称作直接位姿预测,即使用前馈神经网络(FFN)直接输出物体位姿的各个分量,通常是:1)预测物体的深度,2)找出物体中心点在图像上的 2D 投影位置,3)预测物体的朝向(朝向的具体处理方法可能比较复杂)。利用标有物体真实位姿的图像数据,可以设计损失函数直接监督位姿预测结果,轻松地实现网络的端到端训练。然而,这样的网络缺乏可解释性,在规模较小的数据集上易于过拟合。在 3D 目标检测任务中,显式方法占据主流,尤其是对于规模较大的数据集(例如 nuScenes)。


隐式方法则是基于几何优化的位姿估计方法,最典型的代表是基于 PnP 的位姿估计方法。这类方法中,首先需要在图像坐标系中找出 N 个 2D 点(第 i 点 2D 坐标记作),同时在物体坐标系中找出与之相关联的 N 个 3D 点(第 i 点 3D 坐标记作),有时还需要获取各对点的关联权重(第 i 对点的关联权重记作)。根据透视投影约束,这 N 对 2D-3D 加权关联点隐式地定义了物体的最优位姿。具体而言,我们可以找出使重投影误差最小的物体位姿


其中,表示加权重投影误差,是位姿的函数。表示含有内参的相机投影函数,表示元素乘积。PnP 方法常见于物体几何形状已知的 6 自由度位姿估计任务中


基于 PnP 的方法也需要前馈网络去预测 2D-3D 关联点集。相比于直接位姿预测,这一深度学习结合传统几何视觉算法的模型有非常好的可解释性,其泛化性能较为稳定,但在以往的工作中模型的训练方法存在缺陷。很多方法通过构建代理损失函数,去监督 X 这一中间结果,这对于位姿而言不是最优的目标。例如,已知物体形状的前提下,可以预先选取出物体的 3D 关键点,然后训练网络去找出对应的 2D 投影点位置。这也意味着代理损失只能学习 X 中的部分变量,因此不够灵活。如果我们不知道训练集中物体的形状,需要从零开始学习 X 中的全部内容该怎么办?

显示和隐式方法的优势互补,如果能够通过监督 PnP 输出的位姿结果,端到端地训练网络去学习关联点集 X ,则可以将二者优势结合。为实现这一目标,一些近期研究利用隐函数求导实现了 PnP 层的反向传播。然而,PnP 中的 argmin 函数在某些点是不连续不可导的,使得反向传播并不稳定,直接训练难以收敛。

二、EPro-PnP 方法介绍

1、EPro-PnP 模块


为了实现稳定的端到端训练,我们提出了端到端概率 PnP(end-to-end probabilistic PnP),即 EPro-PnP。其基本思想是将隐式位姿视作一个概率分布,则其概率密度对于 X 是可导的。首先基于重投影误差定义位姿的似然函数:


若使用无信息先验,则位姿的后验概率密度为似然函数的归一化结果:


可以注意到,以上公式与常用的分类 softmax 公式分接近,其实 EPro-PnP 的本质就是将softmax从离散阈搬到了连续阈,把求和换成了积分

2、KL 散度损失

在训练模型的过程中,已知物体真实位姿,则可以定义目标位姿分布。此时可以计算 KL 散度作为训练网络所用的损失函数(因固定,也可以理解为交叉熵损失函数)。在目标趋近于 Dirac 函数的情况下,基于 KL 散度的损失函数可以简化为以下形式:


如对其求导则有:


可见,该损失函数由两项构成,第一项(记作)试图降低位姿真值的重投影误差,第二项(记作)试图增大预测位姿各处的重投影误差。二者方向相反,效果如下图(左)所示。作为类比,右边就是我们在训练分类网络时常用的分类交叉熵损失。


3、蒙特卡洛位姿损失

需要注意到,KL 损失中的第二项中含有积分,这一积分没有解析解,因此必须通过数值方法进行近似。综合考虑通用性,精确度和计算效率,我们采用蒙特卡洛方法,通过采样来模拟位姿分布。


具体而言,我们采用了一种重要性采样算法——Adaptive Multiple Importance Sampling(AMIS),计算出K个带有权重的位姿样本,我们将这一过程称作蒙特卡洛 PnP:


据此,第二项可以近似为关于权重的函数,且可以反向传播:


位姿采样的可视化效果如下图所示:


4、针对 PnP 求解器的导数正则化

尽管蒙特卡洛 PnP 损失可以用于训练网络得到高质量的位姿分布,但在推理阶段,还是需要通过 PnP 优化求解器来得到最优位姿解。常用的高斯 - 牛顿及其衍生算法通过迭代优化求解,其迭代增量是由代价函数的一阶和二阶导数决定的。为使 PnP 的解更接近真值,可以对代价函数的导数进行正则化。设计正则化损失函数如下:


其中,为高斯 - 牛顿迭代增量,与代价函数的一阶和二阶导数有关,且可以反向传播,表示距离度量,对于位置使用 smooth L1,对于朝向使用 cosine similarity。在不一致时,该损失函数促使迭代增量指向实际真值。

三、基于 EPro-PnP 的位姿估计网络

我们在 6 自由度位姿估计和 3D 目标检测两个子任务上分别使用了不同的网络。其中,对于 6 自由度位姿估计,在 ICCV 2019 的 CDPN 网络的基础上稍加修改并用 EPro-PnP 训练,用来进行 ablation studies;对于 3D 目标检测,在 ICCVW 2021 的 FCOS3D 基础上设计了全新的变形关联(deformable correspondence)检测头,以证明 EPro-PnP 可以训练网络在没有物体形状知识的情况下直接学出所有 2D-3D 点和关联权重,从而展现 EPro-PnP 在应用方面的灵活性。

1、用于 6 自由度位姿估计的稠密关联网络


网络结构如上图所示,只是在原版 CDPN 的基础上修改了输出层。原版 CDPN 使用已经检测到的物体 2D 框裁剪出区域图像,输入到 ResNet34 backbone 中。原版 CDPN 将位置与朝向解耦为两个分支,位置分支使用直接预测的显式方法,而朝向分支使用稠密关联和 PnP 的隐式方法。为了研究 EPro-PnP,改动后的网络只保留了稠密关联分支,其输出为 3 通道的 3D 坐标图,以及 2 通道关联权重,其中关联权重经过了 spatial softmax 和 global weight scaling。增加 spatial softmax 目的是对权重行归一化,使其具有类似 attention map 的性质,可以关注相对重要的区域,实验证明权重归一化也是稳定收敛的关键。Global weight scaling 反映了位姿分布的集中程度。该网络仅需 EPro-PnP 的蒙特卡洛位姿损失就可以训练,此外可以增加导数正则化,以及在物体形状已知的情况下增加额外的 3D 坐标回归损失。


相关文章
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
152 0
|
11月前
|
数据可视化 数据挖掘 大数据
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读(2)
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读
146 0
|
机器学习/深度学习 人工智能 自然语言处理
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
深度生成模型可以在高分辨率下进行逼真的图像合成。但对于许多应用来说,这还不够:内容创作还需要可控。虽然最近有几项工作研究了如何分解数据中的潜在变化因素,但它们大多在二维中操作,忽略了我们的世界是三维的。
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
|
人工智能 自然语言处理 前端开发
EMNLP 2021奖项公布,剑桥刘方宇、哥大杨子小帆一作论文分获最佳长、短论文奖
最佳长论文、最佳短论文的一作都是正在读博的华人学者。
226 0
EMNLP 2021奖项公布,剑桥刘方宇、哥大杨子小帆一作论文分获最佳长、短论文奖
|
机器学习/深度学习 vr&ar 图形学
CVPR 2020华人一作包揽最佳论文、最佳学生论文,中国作者占39%,清华高居第一
机器之心编辑部 在刚刚开幕的 CVPR 2020 上,最佳论文、最佳学生论文等奖项悉数公布,来自牛津大学的吴尚哲等人获得了最佳论文奖,本科毕业于上海交通大学、现为西蒙弗雷泽大学博士一年级学生 Zhiqin Chen 等人获得最佳学生论文。
219 0
CVPR 2020华人一作包揽最佳论文、最佳学生论文,中国作者占39%,清华高居第一
|
机器学习/深度学习 存储 人工智能
NeurIPS 2020奖项出炉:GPT-3等三项研究获最佳论文奖,华人一作论文获时间检验奖
一万八千人参会的NeurIPS 2020 相比去年数量暴涨了三成,在大会上,1750 亿参数模型 GPT-3 再次成为了人们热议的话题。
142 0
NeurIPS 2020奖项出炉:GPT-3等三项研究获最佳论文奖,华人一作论文获时间检验奖
|
机器学习/深度学习 数据采集 人工智能
他们创造了横扫NLP的XLNet:专访CMU博士杨植麟
Transformer XL 和 XLNet 是最近自然语言处理(NLP)领域里最热的话题之一,而它们都是 CMU 博士生 戴自航、杨植麟等人的工作。今年 6 月,CMU 与谷歌大脑提出的 XLNet 在 20 个任务上超过 BERT,并在 18 个任务上取得当前最佳效果的表现。
515 0
他们创造了横扫NLP的XLNet:专访CMU博士杨植麟
|
机器学习/深度学习 人工智能 算法
华人问鼎CVPR!最佳论文、最佳学生论文一作均为华人,近四成作者来自中国,清华为最高产机构
华人问鼎CVPR!最佳论文、最佳学生论文一作均为华人,近四成作者来自中国,清华为最高产机构
295 0
|
机器学习/深度学习 人工智能 自然语言处理
NLP顶会NAACL-HLT论文奖名单发布,BERT获最佳长论文奖
自然语言处理领域优秀论文巡礼
424 0
|
机器学习/深度学习 人工智能 算法
AAAI 2019 四个杰出论文奖论文揭晓
一半都是强化学习论文
538 0