论文Express | 单幅RGB图像整体三维场景解析与重建

本文涉及的产品
云解析 DNS,旗舰版 1个月
云解析DNS,个人版 1个月
全局流量管理 GTM,标准版 1个月
简介:

不是998!只用一张图就能重建三维场景!今天我们就给大家介绍这项神奇的研究。

这项研究由加州大学洛杉矶分校(UCLA)的六位学者完成,并已被欧洲计算机视觉国际会议(ECCV)采纳。

d8a9ee9a241f94f3b8ffcc44755af3daac3c9a8c

我们对论文的精华编译如下:

人类视觉的复杂性和丰富性不仅体现在识别可见物体的能力上,而且体现在解释潜在的不确定信息上,包括推断潜在的人类语境在场景中的功能 ,重建三维分层几何结构,遵守物理约束并保证物理上合理的场景配置。对室内场景的这种丰富的理解是构建智能计算系统的本质,其超越了主要基于外观和几何的识别任务,而是考虑的是对观察到的图像或图案更深层次的推理。

一个有希望的方向是合成分析或“视觉反转图形”这两种方法。在这个范例中,计算机视觉被视为与计算机图形相反的逆问题,其目标是对产生观察图像的物理过程中隐藏的因素进行逆向工程。

4c06e4ee0bbe1d5f325c9e584db59f41ab2fbe9d

图1:通过合成分析这种方法所展现出的整体3D室内场景解析和重建。

3D表示由各个视觉模块初始化(例如对象检测和2D布局估计)。 联合推理算法将渲染的法线,深度和分割图之间的差异与输入估计后的RGB图像的差异进行比较,并不断迭代调整3D结构。

我们提出了一种计算框架,将视觉概念作为逆图形,使用随机语法模型(stochastic grammar model),联合解析(jointly parse)单幅RGB图像,重建出由一组CAD模型组成的整体3D结构。

图1示意性地说明了合成分析推理过程。联合推理算法从各种视觉模块中获取建议,并通过比较从恢复的3D结构渲染的各种投影(深度,法线,分割)与从输入图像直接估计的投影来推断3D结构。

具体来说,我们利用一种整体场景语法(Holistic Scene Grammar, HSG)来展现3D场景结构,它表征了室内场景在功能空间和几何空间上的联合分布。HSG捕捉了室内场景中三个必要的隐含维度:1.隐含的人类背景,描述房间布置的功能可见性,2.场景结构的几何约束,3.物理约束,这保证了物理上合理的解析与重建。

我们以综合分析的方式来解决这个联合解析与重建的问题,寻求在深度空间,曲面法线和对象分割图上最小化输入图像与生成的渲染图像之间的差异。

使用马尔可夫链蒙特卡罗(Markov chain Monte Carlo, MCMC)推测出由解析图表示的最优结构,其有效地遍历不可微的解空间,共同优化物体定位,3D布局和隐含的人类背景。实验结果表明,该算法提高了泛化能力,在3D布局估计,三维物体检测和整体场景理解方面明显优于现有方法。

译者注:

功能空间,指房间的层级结构,包含活动分区;几何空间 ,指CAD模型。

a02d5b0729c939961eef8a59bb8dd665e077bc2d

图2: 用HSG分析图展现的一个室内情景。函数空间描述了阶级结构,几何空间表示了空间物体和背景关系。

如图2所示,我们的HSG将场景分解为功能空间中的潜在组(包括活动组的分层结构)和几何空间中的对象实例(CAD模型)。对于功能空间,与仅模拟物-物关系的传统方法相比,我们提出了一种通过在活动组中想象潜在的人来进一步帮助解释和解析观察到的图像来模拟人-物关系的新方法。

对于几何空间,各个对象的几何属性(大小,位置,方向)在我们考虑范围之内,以及它们之间的几何关系(支持关系)。另外,结合物理约束(对象之间的碰撞,违反布局)生成观察图像并进行物理上可信的3D解析和重建。

使用最大后验概率估计(MAP)这种方法,是为了找到解析和重建所观察图像的最优解。在MAP这种方法中,我们可以利用相似度来测量所观察的图像和通过pg投影到各种2D空间上的渲染图像之间的相似性。

因此,可以通过基于后验概率(MAP)这种方法,对MCMC进行采样来不断迭代和细化解析图(pg)。我们通过将重建的3D室内房间与实际的室内房间进行比较来评估我们在大规模RGB-D数据集上的方法。

本文有五个主要的贡献:

1. 我们集成了几何和物理两个维度,用CAD模型解释和重建室内场景。联合优化了3D房间布局和物体的结构,大大提高了在SUN RGB-D数据集 [45] 上进行场景解析和重建的性能。

2. 我们将隐含的人类背景(即功能区)纳入我们的语法模型,通过分组和抽样,能够猜想出每个活动区间中的潜在人类姿势。通过这种方式,我们可以优化场景中可见和不可见 [48] 分量的联合分布。

3. 我们提出了一个完整的计算框架,将生成模型(即随机语法),判别模型(即深度,法线和分割图的直接估计)和图形引擎(即渲染图像)在场景解析与重建中结合起来。

4. 据我们所知,我们最先使用了推测出的深度,曲面法线和对象分割图来帮助解析和重建3D场景(包括房间布局和多个物体)。请注意,文献 [49] 对单个物体使用了类似的中间表示。

5. 通过学习物体之间的支撑关系(supporting relations),所提出的方法消除了先前工作中广泛采用的假设,即所有物体必须立在地面上。模型的这种灵活性可以更好地解析和重建具有复杂对象关系的真实世界场景。


原文发布时间为:2018-08-15

本文作者:雪清、罗然、CoolBoy

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

相关文章
|
1月前
|
图形学 计算机视觉
CVPR 2024:仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景
【4月更文挑战第22天】CustomNeRF是CVPR 2024会议上的一项创新框架,它利用文本描述或参考图像实现3D场景的精准编辑。通过局部-全局迭代编辑(LGIE)训练和类别先验正则化,该框架能精确编辑前景区域同时保持背景一致性。尽管依赖预训练模型且局限于文本和图像输入,CustomNeRF在实验中展现了高效编辑能力,为3D场景编辑开辟新路径。[链接](https://arxiv.org/abs/2312.01663)
31 2
|
1月前
|
Android开发
Android Studio入门之图像显示解析及实战(附源码 超详细必看)(包括图像视图、图像按钮、同时展示文本与图像)
Android Studio入门之图像显示解析及实战(附源码 超详细必看)(包括图像视图、图像按钮、同时展示文本与图像)
125 1
|
28天前
|
前端开发 JavaScript
HTML图像标签的深入解析与应用
HTML图像标签的深入解析与应用
22 1
|
30天前
|
机器学习/深度学习 编解码 并行计算
【传知代码】用二维图像渲染3D场景视频-论文复现
mip-NeRF是针对NeRF(Neural Radiance Fields)的改进模型,旨在解决NeRF在不同分辨率下渲染图像时的模糊和伪影问题。mip-NeRF通过引入多尺度表示和圆锥体采样,减少了图像伪影,提升了细节表现力,同时比NeRF快7%,模型大小减半。相比NeRF,mip-NeRF在标准数据集上的错误率降低17%,多尺度数据集上降低60%。此外,它的渲染速度比超采样NeRF快22倍。该模型适用于3D场景渲染和相关应用,具有广阔的发展前景。
|
1月前
|
存储 传感器 数据安全/隐私保护
CVPR 2024 Highlight:基于单曝光压缩成像,不依赖生成模型也能从单张图像中重建三维场景
【5月更文挑战第15天】CVPR 2024会议上,清华大学研究人员提出的SCINeRF利用单曝光压缩成像(SCI)技术结合神经辐射场(NeRF)进行3D场景重建。SCI以低成本捕捉高维数据,而SCINeRF将SCI的成像过程融入NeRF训练,实现复杂场景的高效重建。实验显示,该方法在图像重建和多视角图像生成方面取得优越性能,但实际应用仍需解决SCI系统设计、训练效率和模型泛化等挑战。[Link: https://arxiv.org/abs/2403.20018]
45 2
|
1月前
|
机器学习/深度学习 编解码
【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析2
【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析
42 2
|
1月前
|
机器学习/深度学习 计算机视觉
【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析1
【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析
35 1
|
1月前
|
人工智能 测试技术 UED
论文介绍:ReALM——作为语言建模的参考解析
【4月更文挑战第8天】Apple研究员提出的ReALM框架旨在改善AI在处理上下文信息时的准确性和自然性,特别是对于屏幕内容的理解。通过将参考解析转化为语言建模,ReALM能有效编码和解析屏幕实体,提高智能助手处理用户查询的能力。实验显示,ReALM在处理屏幕、对话和背景实体参考时超越了GPT-3.5和GPT-4。尽管存在挑战,如复杂空间位置理解的局限性,但ReALM为智能助手的交互体验带来了显著提升,且其模块化设计利于升级和维护。
101 2
论文介绍:ReALM——作为语言建模的参考解析
|
1月前
|
机器学习/深度学习 人工智能
论文介绍:深入解析神经语言模型的规模定律
【4月更文挑战第2天】OpenAI的论文《Scaling Laws for Neural Language Models》探索了模型规模、数据量和计算资源与性能的幂律关系。研究发现,增大模型参数、数据集和计算投入能按幂律提升性能,且模型性能与架构细节关联较小。大型模型在样本效率上更优,能在少量数据上达到与小型模型相当的性能。尽管存在理论解释和数据规模等方面的局限性,该研究为优化资源分配和设计高性能语言模型提供了关键洞见。
26 2
论文介绍:深入解析神经语言模型的规模定律
|
1月前
|
机器学习/深度学习
yolov7论文学习——创新点解析、网络结构图
yolov7论文学习——创新点解析、网络结构图

推荐镜像

更多