Meta发布室内场景重建方法SceneScript

简介: Meta的SceneScript技术革新了室内场景重建,采用基于标记的结构化语言模型,从视频流中预测三维场景。受Transformer和LLMs启发,SceneScript将自然语言处理应用于三维建模,通过场景语言编码器-解码器推断结构化命令。使用大规模合成数据集Aria Synthetic Environments进行训练,SceneScript在建筑布局和3D对象检测上表现出色,具备适应新任务的灵活性。尽管面临细节处理和自动化限制,但其潜力和创新性已得到业界认可。

saasas.jpg
Meta Reality Labs近期推出了一项创新技术——SceneScript,这是一种全新的室内场景重建方法。与传统的三维场景建模技术相比,SceneScript采用了一种独特的自回归、基于标记的结构化语言模型,能够直接从视频流中预测出室内场景的三维表示。这一技术的核心在于其能够将复杂的室内环境转换成一系列结构化的语言命令,从而实现对场景的精确描述和重建。

SceneScript的设计理念受到了近年来变换器(transformers)和大型语言模型(LLMs)成功的启发。这些模型在自然语言处理领域取得了革命性的进展,而SceneScript将其应用到了三维场景建模上。通过场景语言编码器-解码器架构,SceneScript能够直接从编码的视觉数据中推断出结构化语言命令集,这在室内场景重建领域尚属首次。

为了训练这一模型,Meta生成并发布了名为Aria Synthetic Environments的大规模合成数据集,该数据集包含了10万个高质量的室内场景。这些场景不仅具有逼真的渲染效果,还附带了详尽的地面真实注释,为SceneScript的训练提供了坚实的数据支持。在建筑布局估计方面,SceneScript取得了业界领先的成果,同时在3D对象检测方面也展现出了竞争力。

SceneScript的一个显著优势在于其强大的适应性。通过简单地向结构化语言中添加新命令,SceneScript能够轻松适应新任务,这一点在粗略的3D对象部分重建任务中得到了明显体现。这种灵活性意味着SceneScript不仅能够应对当前的挑战,还能够随着技术的发展而不断进化,以适应未来可能出现的新场景和新需求。

SceneScript的结构化语言命令是其核心组成部分。这些命令通过参数化的方式捕捉布局元素,如墙壁、门和窗户等。此外,SceneScript还引入了make_bbox命令,用于推断对象作为定向边界框。这种文本基的参数化方式不仅使得场景表示更加紧凑和可编辑,而且可以通过添加新的命令来扩展语言的功能,例如表示门的开合状态等。

SceneScript的网络架构采用了编码器-解码器的设计,这种设计使得它能够处理来自不同源的数据。编码器从视频序列中提取场景的潜在代码,而解码器则将这些代码转换成结构化的语言命令。这种架构的优势在于其能够整合多种输入模态,提高了模型的适用性和灵活性。

在性能评估方面,SceneScript展现出了出色的准确性和可靠性。通过定义实体间距离和设置预测实体的成功标准,SceneScript能够在不同的阈值下计算出F1分数,并取得平均分数。这些指标不仅证明了SceneScript在布局估计方面的高效性,也展示了其在3D对象检测方面的潜力。

SceneScript作为一种新颖的室内场景重建方法,其创新性和实用性得到了业界的认可。它不仅在技术上取得了突破,还在应用上展现出了巨大的潜力。然而,任何技术都不可能完美无缺,SceneScript同样面临着挑战。例如,它在处理非常细致的几何细节时可能会有所不足,而且目前的场景命令仍然是人工定义的,这在一定程度上限制了其自动化和规模化应用的能力。

论文地址:https://arxiv.org/abs/2403.13064

目录
相关文章
|
3月前
|
数据采集 存储 数据可视化
医院影像PACS系统三维重建技术(获取数据、预处理、重建)
开放式体系结构,完全符合DICOM3.0标准,提供HL7标准接口,可实现与提供相应标准接口的HIS系统以及其他医学信息系统间的数据通信。
29 3
|
4月前
|
传感器 自动驾驶 算法
Apollo感知模块 :传感器| 目标监测| 障碍物识别 | 模型管理
Apollo感知模块 :传感器| 目标监测| 障碍物识别 | 模型管理
32 0
|
5月前
|
算法 定位技术 图形学
基于Pix4Dmapper的运动结构恢复无人机影像三维模型重建
基于Pix4Dmapper的运动结构恢复无人机影像三维模型重建
|
10月前
|
存储 数据库 数据安全/隐私保护
基于C++开发,支持三维重建,多平面重建技术的医学影像PACS系统源码
支持非DICOM标准的影像设备的图像采集和处理。 3)支持各种扫描仪、数码相机等影像输入设备。 4)支持各大主流厂商的CT、MR、DSA、ECT、US、数字胃肠、内镜等影像设备; 5)支持所有的DICOM相机,支持各大厂家的激光相机。 6)系统完全支持HL7接口和ICD—10编码,可与HIS系统无缝连接。 7)提供全院级、科室级工作站以及远程会诊工作站,三维重建,多平面重建。
基于C++开发,支持三维重建,多平面重建技术的医学影像PACS系统源码
|
10月前
|
算法 安全 新能源
主辅助服务市场出清模型研究【旋转备用】(Matlab代码实现)
主辅助服务市场出清模型研究【旋转备用】(Matlab代码实现)
|
5月前
|
存储 数据采集 数据库
【C++】医学影像PACS管理系统源码支持三维图像后处理和重建
【C++】医学影像PACS管理系统源码支持三维图像后处理和重建
62 0
|
5月前
医院PACS系统:三维多平面重建操作使用
医院PACS系统:三维多平面重建操作使用
43 0
|
7月前
|
缓存 数据可视化 vr&ar
医学影像PACS源码 三维多平面重建、三维容积重建
持所见即所得报告书写方式; •  报告单预览功能(在书写、审核、打印时都可随时预览报告); •  在书写报告过程中可随时切换报告单样式; •  相关检查功能:在书写报告时可查看患者相关检查的图像及报告信息; •  常用词汇管理,支持报告模板管理;
|
12月前
|
传感器 定位技术 图形学
SIGGRAPH | 6个惯性传感器和1个手机实现人体动作捕捉、定位与环境重建(2)
SIGGRAPH | 6个惯性传感器和1个手机实现人体动作捕捉、定位与环境重建
145 0
|
12月前
|
传感器 机器学习/深度学习 算法
SIGGRAPH | 6个惯性传感器和1个手机实现人体动作捕捉、定位与环境重建(1)
SIGGRAPH | 6个惯性传感器和1个手机实现人体动作捕捉、定位与环境重建
154 0