论文Express | 单幅RGB图像整体三维场景解析与重建

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介:

不是998!只用一张图就能重建三维场景!今天我们就给大家介绍这项神奇的研究。

这项研究由加州大学洛杉矶分校(UCLA)的六位学者完成,并已被欧洲计算机视觉国际会议(ECCV)采纳。

d8a9ee9a241f94f3b8ffcc44755af3daac3c9a8c

我们对论文的精华编译如下:

人类视觉的复杂性和丰富性不仅体现在识别可见物体的能力上,而且体现在解释潜在的不确定信息上,包括推断潜在的人类语境在场景中的功能 ,重建三维分层几何结构,遵守物理约束并保证物理上合理的场景配置。对室内场景的这种丰富的理解是构建智能计算系统的本质,其超越了主要基于外观和几何的识别任务,而是考虑的是对观察到的图像或图案更深层次的推理。

一个有希望的方向是合成分析或“视觉反转图形”这两种方法。在这个范例中,计算机视觉被视为与计算机图形相反的逆问题,其目标是对产生观察图像的物理过程中隐藏的因素进行逆向工程。

4c06e4ee0bbe1d5f325c9e584db59f41ab2fbe9d

图1:通过合成分析这种方法所展现出的整体3D室内场景解析和重建。

3D表示由各个视觉模块初始化(例如对象检测和2D布局估计)。 联合推理算法将渲染的法线,深度和分割图之间的差异与输入估计后的RGB图像的差异进行比较,并不断迭代调整3D结构。

我们提出了一种计算框架,将视觉概念作为逆图形,使用随机语法模型(stochastic grammar model),联合解析(jointly parse)单幅RGB图像,重建出由一组CAD模型组成的整体3D结构。

图1示意性地说明了合成分析推理过程。联合推理算法从各种视觉模块中获取建议,并通过比较从恢复的3D结构渲染的各种投影(深度,法线,分割)与从输入图像直接估计的投影来推断3D结构。

具体来说,我们利用一种整体场景语法(Holistic Scene Grammar, HSG)来展现3D场景结构,它表征了室内场景在功能空间和几何空间上的联合分布。HSG捕捉了室内场景中三个必要的隐含维度:1.隐含的人类背景,描述房间布置的功能可见性,2.场景结构的几何约束,3.物理约束,这保证了物理上合理的解析与重建。

我们以综合分析的方式来解决这个联合解析与重建的问题,寻求在深度空间,曲面法线和对象分割图上最小化输入图像与生成的渲染图像之间的差异。

使用马尔可夫链蒙特卡罗(Markov chain Monte Carlo, MCMC)推测出由解析图表示的最优结构,其有效地遍历不可微的解空间,共同优化物体定位,3D布局和隐含的人类背景。实验结果表明,该算法提高了泛化能力,在3D布局估计,三维物体检测和整体场景理解方面明显优于现有方法。

译者注:

功能空间,指房间的层级结构,包含活动分区;几何空间 ,指CAD模型。

a02d5b0729c939961eef8a59bb8dd665e077bc2d

图2: 用HSG分析图展现的一个室内情景。函数空间描述了阶级结构,几何空间表示了空间物体和背景关系。

如图2所示,我们的HSG将场景分解为功能空间中的潜在组(包括活动组的分层结构)和几何空间中的对象实例(CAD模型)。对于功能空间,与仅模拟物-物关系的传统方法相比,我们提出了一种通过在活动组中想象潜在的人来进一步帮助解释和解析观察到的图像来模拟人-物关系的新方法。

对于几何空间,各个对象的几何属性(大小,位置,方向)在我们考虑范围之内,以及它们之间的几何关系(支持关系)。另外,结合物理约束(对象之间的碰撞,违反布局)生成观察图像并进行物理上可信的3D解析和重建。

使用最大后验概率估计(MAP)这种方法,是为了找到解析和重建所观察图像的最优解。在MAP这种方法中,我们可以利用相似度来测量所观察的图像和通过pg投影到各种2D空间上的渲染图像之间的相似性。

因此,可以通过基于后验概率(MAP)这种方法,对MCMC进行采样来不断迭代和细化解析图(pg)。我们通过将重建的3D室内房间与实际的室内房间进行比较来评估我们在大规模RGB-D数据集上的方法。

本文有五个主要的贡献:

1. 我们集成了几何和物理两个维度,用CAD模型解释和重建室内场景。联合优化了3D房间布局和物体的结构,大大提高了在SUN RGB-D数据集 [45] 上进行场景解析和重建的性能。

2. 我们将隐含的人类背景(即功能区)纳入我们的语法模型,通过分组和抽样,能够猜想出每个活动区间中的潜在人类姿势。通过这种方式,我们可以优化场景中可见和不可见 [48] 分量的联合分布。

3. 我们提出了一个完整的计算框架,将生成模型(即随机语法),判别模型(即深度,法线和分割图的直接估计)和图形引擎(即渲染图像)在场景解析与重建中结合起来。

4. 据我们所知,我们最先使用了推测出的深度,曲面法线和对象分割图来帮助解析和重建3D场景(包括房间布局和多个物体)。请注意,文献 [49] 对单个物体使用了类似的中间表示。

5. 通过学习物体之间的支撑关系(supporting relations),所提出的方法消除了先前工作中广泛采用的假设,即所有物体必须立在地面上。模型的这种灵活性可以更好地解析和重建具有复杂对象关系的真实世界场景。


原文发布时间为:2018-08-15

本文作者:雪清、罗然、CoolBoy

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

目录
打赏
0
0
0
0
73530
分享
相关文章
穹彻智能-上交大最新Nature子刊速递:解析深度学习驱动的视触觉动态重建方案
上海交大研究团队在Nature子刊发表论文,提出基于深度学习的视触觉动态重建方案,结合高密度可拉伸触觉手套与视觉-触觉联合学习框架,实现手部与物体间力量型交互的实时捕捉和重建。该方案包含1152个触觉感知单元,通过应变干扰抑制方法提高测量准确性,平均重建误差仅1.8厘米。实验结果显示,其在物体重建的准确性和鲁棒性方面优于现有方法,为虚拟现实、远程医疗等领域带来新突破。
99 32
Hugging Face 论文平台 Daily Papers 功能全解析
【9月更文挑战第23天】Hugging Face 是一个专注于自然语言处理领域的开源机器学习平台。其推出的 Daily Papers 页面旨在帮助开发者和研究人员跟踪 AI 领域的最新进展,展示经精心挑选的高质量研究论文,并提供个性化推荐、互动交流、搜索、分类浏览及邮件提醒等功能,促进学术合作与知识共享。
165 0
Istio整体架构解析
【7月更文挑战第17天】Istio整体架构分为数据平面(Data Plane)和控制平面(Control Plane)两部分
文本,文识08图片保存()上,最方便在于整体生成代码,serivce及实体类,base64编码保存图片文件,调用flask实现内部ocr接口,通过paddleocr识别,解析结果,base64转图片
文本,文识08图片保存()上,最方便在于整体生成代码,serivce及实体类,base64编码保存图片文件,调用flask实现内部ocr接口,通过paddleocr识别,解析结果,base64转图片
【2021 亚太杯数学建模】赛题A-Image Edge Analysis and application图像边缘分析与应用 赛题思路解析及实现
关于2021年亚太杯数学建模赛题A的解析,主要介绍了图像边缘分析与应用的方法,包括亚像素边缘检测、图像目标尺寸测量和亚像素直线段、圆弧段、椭圆段的分割,并提供了MATLAB和Halcon软件的实现方案。
148 0
HTML图像标签的深入解析与应用
HTML图像标签的深入解析与应用
130 1
论文介绍:ReALM——作为语言建模的参考解析
【4月更文挑战第8天】Apple研究员提出的ReALM框架旨在改善AI在处理上下文信息时的准确性和自然性,特别是对于屏幕内容的理解。通过将参考解析转化为语言建模,ReALM能有效编码和解析屏幕实体,提高智能助手处理用户查询的能力。实验显示,ReALM在处理屏幕、对话和背景实体参考时超越了GPT-3.5和GPT-4。尽管存在挑战,如复杂空间位置理解的局限性,但ReALM为智能助手的交互体验带来了显著提升,且其模块化设计利于升级和维护。
251 2
论文介绍:ReALM——作为语言建模的参考解析
【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析2
【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析
430 2
论文介绍:深入解析神经语言模型的规模定律
【4月更文挑战第2天】OpenAI的论文《Scaling Laws for Neural Language Models》探索了模型规模、数据量和计算资源与性能的幂律关系。研究发现,增大模型参数、数据集和计算投入能按幂律提升性能,且模型性能与架构细节关联较小。大型模型在样本效率上更优,能在少量数据上达到与小型模型相当的性能。尽管存在理论解释和数据规模等方面的局限性,该研究为优化资源分配和设计高性能语言模型提供了关键洞见。
122 2
论文介绍:深入解析神经语言模型的规模定律

热门文章

最新文章

推荐镜像

更多
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等