论文Express | 单幅RGB图像整体三维场景解析与重建-阿里云开发者社区

论文Express | 单幅RGB图像整体三维场景解析与重建

2018-08-15 2006

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云解析 DNS，旗舰版 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

全局流量管理 GTM，标准版 1个月

简介：

不是998！只用一张图就能重建三维场景！今天我们就给大家介绍这项神奇的研究。

这项研究由加州大学洛杉矶分校（UCLA）的六位学者完成，并已被欧洲计算机视觉国际会议（ECCV）采纳。

d8a9ee9a241f94f3b8ffcc44755af3daac3c9a8c

我们对论文的精华编译如下：

人类视觉的复杂性和丰富性不仅体现在识别可见物体的能力上，而且体现在解释潜在的不确定信息上，包括推断潜在的人类语境在场景中的功能，重建三维分层几何结构，遵守物理约束并保证物理上合理的场景配置。对室内场景的这种丰富的理解是构建智能计算系统的本质，其超越了主要基于外观和几何的识别任务，而是考虑的是对观察到的图像或图案更深层次的推理。

一个有希望的方向是合成分析或“视觉反转图形”这两种方法。在这个范例中，计算机视觉被视为与计算机图形相反的逆问题，其目标是对产生观察图像的物理过程中隐藏的因素进行逆向工程。

4c06e4ee0bbe1d5f325c9e584db59f41ab2fbe9d

图1：通过合成分析这种方法所展现出的整体3D室内场景解析和重建。

3D表示由各个视觉模块初始化（例如对象检测和2D布局估计）。联合推理算法将渲染的法线，深度和分割图之间的差异与输入估计后的RGB图像的差异进行比较，并不断迭代调整3D结构。

我们提出了一种计算框架，将视觉概念作为逆图形，使用随机语法模型（stochastic grammar model），联合解析（jointly parse）单幅RGB图像，重建出由一组CAD模型组成的整体3D结构。

图1示意性地说明了合成分析推理过程。联合推理算法从各种视觉模块中获取建议，并通过比较从恢复的3D结构渲染的各种投影（深度，法线，分割）与从输入图像直接估计的投影来推断3D结构。

具体来说，我们利用一种整体场景语法（Holistic Scene Grammar, HSG）来展现3D场景结构，它表征了室内场景在功能空间和几何空间上的联合分布。HSG捕捉了室内场景中三个必要的隐含维度：1.隐含的人类背景，描述房间布置的功能可见性，2.场景结构的几何约束，3.物理约束，这保证了物理上合理的解析与重建。

我们以综合分析的方式来解决这个联合解析与重建的问题，寻求在深度空间，曲面法线和对象分割图上最小化输入图像与生成的渲染图像之间的差异。

使用马尔可夫链蒙特卡罗（Markov chain Monte Carlo, MCMC）推测出由解析图表示的最优结构，其有效地遍历不可微的解空间，共同优化物体定位，3D布局和隐含的人类背景。实验结果表明，该算法提高了泛化能力，在3D布局估计，三维物体检测和整体场景理解方面明显优于现有方法。

译者注：

功能空间，指房间的层级结构，包含活动分区；几何空间，指CAD模型。

a02d5b0729c939961eef8a59bb8dd665e077bc2d

图2: 用HSG分析图展现的一个室内情景。函数空间描述了阶级结构，几何空间表示了空间物体和背景关系。

如图2所示，我们的HSG将场景分解为功能空间中的潜在组（包括活动组的分层结构）和几何空间中的对象实例（CAD模型）。对于功能空间，与仅模拟物-物关系的传统方法相比，我们提出了一种通过在活动组中想象潜在的人来进一步帮助解释和解析观察到的图像来模拟人-物关系的新方法。

对于几何空间，各个对象的几何属性（大小，位置，方向）在我们考虑范围之内，以及它们之间的几何关系（支持关系）。另外，结合物理约束（对象之间的碰撞，违反布局）生成观察图像并进行物理上可信的3D解析和重建。

使用最大后验概率估计(MAP)这种方法，是为了找到解析和重建所观察图像的最优解。在MAP这种方法中，我们可以利用相似度来测量所观察的图像和通过pg投影到各种2D空间上的渲染图像之间的相似性。

因此，可以通过基于后验概率（MAP）这种方法，对MCMC进行采样来不断迭代和细化解析图(pg)。我们通过将重建的3D室内房间与实际的室内房间进行比较来评估我们在大规模RGB-D数据集上的方法。

本文有五个主要的贡献：

1. 我们集成了几何和物理两个维度，用CAD模型解释和重建室内场景。联合优化了3D房间布局和物体的结构，大大提高了在SUN RGB-D数据集 [45] 上进行场景解析和重建的性能。

2. 我们将隐含的人类背景（即功能区）纳入我们的语法模型，通过分组和抽样，能够猜想出每个活动区间中的潜在人类姿势。通过这种方式，我们可以优化场景中可见和不可见 [48] 分量的联合分布。

3. 我们提出了一个完整的计算框架，将生成模型（即随机语法），判别模型（即深度，法线和分割图的直接估计）和图形引擎（即渲染图像）在场景解析与重建中结合起来。

4. 据我们所知，我们最先使用了推测出的深度，曲面法线和对象分割图来帮助解析和重建3D场景（包括房间布局和多个物体）。请注意，文献 [49] 对单个物体使用了类似的中间表示。

5. 通过学习物体之间的支撑关系（supporting relations），所提出的方法消除了先前工作中广泛采用的假设，即所有物体必须立在地面上。模型的这种灵活性可以更好地解析和重建具有复杂对象关系的真实世界场景。

原文发布时间为：2018-08-15

本文作者：雪清、罗然、CoolBoy

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“大数据文摘”。

论文Express | 单幅RGB图像整体三维场景解析与重建

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

论文Express | 单幅RGB图像整体三维场景解析与重建

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像