MIT、哈佛新研究:提速15000倍,借助光场实现3D场景超高速渲染

简介: MIT、哈佛新研究:提速15000倍,借助光场实现3D场景超高速渲染
光场不是第一次被提出,但这是第一次充分利用其优势。

对人类来说,观看单个二维图像并理解它捕获的完整三维场景是一件容易的事,但对于 AI 智能体来说则不然。现实生活中,一台需要与物体进行交互的机器(比如一个收割庄稼或协助手术的机器人)必须能够从的 2D 图像的观察中推断出 3D 场景的属性。

虽然科学家们已经成功地使用神经网络从图像中推断出 3D 场景的表征,但这些机器学习方法的速度还不够快,无法适用于许多现实世界的应用。

在一篇 NeurIPS 2021 论文中,来自哈佛大学、麻省理工学院的研究人员提出了一种新方法,使从图像中表征 3D 场景比已有模型约快 15000 倍

image.png

论文地址:https://arxiv.org/abs/2106.02634

该研究提出的光场网络 (LFN) 可以在仅对图像进行一次观看后重建光场,并且能够以实时帧率渲染 3D 场景。

「这些神经场景表征的巨大前景是用于视觉任务。给你一张图像,然后从该图像中创建场景的表征,你想推理的一切都可以在那个 3D 场景的空间中进行,」MIT CSAIL 博士后、论文的共同主要作者 Vincent Sitzmann 说道。

方法概览

在计算机视觉和计算机图形学中,从图像中渲染 3D 场景涉及到映射数千或数百万的相机光线。其中,将相机光线想象为从相机镜头射出并照射图像中每个像素的激光束,每个像素一束光线。而计算机模型必须确定每条相机光线照射出的像素的颜色。

此前的方法是在每条相机光线于空间中移动时,沿每条相机光线的长度采集数百个样本来实现这一点,这是一个计算成本很高的过程,可能会导致渲染缓慢。

而该研究提出的 LFN 方法能够学习表征 3D 场景的光场,然后将光场中的每条相机光线直接映射到该光线观察到的颜色。LFN 利用光场的独特属性,只需一次评估即可渲染光线,因此 LFN 无需沿着光线的长度来运行计算。

Sitzmann   说:「使用其他方法进行渲染时,你必须一直跟随光线直到找到表面。你必须做数千个样本,因为这就是寻找表面的过程,甚至可能完不成,因为可能有复杂的东西,比如透明度或反射。而对于光场而言,一旦重建了光场,渲染单条光线就只需要表征的单个样本,因为表征会直接将光线映射成它的颜色。」

LFN 使用其「Plücker 坐标」对每条相机光线进行分类,该坐标能够基于方向和距离原点的距离表征 3D 空间中的一条线。系统会在光线照射像素的点处,计算每条相机光线的 Plücker 坐标。

通过使用  Plücker 坐标映射每条光线,LFN  还能够计算由于视差效应而产生的场景几何形状。视差是指从两条不同的视线观看时物体的表观位置差异。例如,如果您移动头部,距离较远的物体似乎比较近的物体移动得少。基于视差,LFN  可以判断场景中物体的深度,并使用此信息对场景的几何形状及其外观进行编码。

但是要重建光场,神经网络必须首先了解光场的结构,因此研究人员用许多简单的汽车和椅子场景图像训练模型。

光场有一个内在的几何形状,这正是该模型试图学习的。尽管汽车和椅子的光场似乎是不同的,以至于模型无法了解它们之间的某些共性。但事实证明,如果添加更多种类的物体,只要有一些同质性,模型就会越来越了解一般物体的光场的外观,因此你可以对更多类进行泛化。

一旦模型学习了光场的结构,它就可以仅将一张图像作为输入来渲染 3D 场景。

快速渲染

研究人员通过重建几个简单场景的 360 度光场来测试他们的模型。他们发现 LFN 能够以每秒 500 多帧的速度渲染场景,比其他方法快了大约 3 个数量级。此外,LFN 渲染的 3D 对象通常比其他模型生成的对象更清晰。

LFN 的内存密集程度也较低,仅需要大约 1.6 兆字节的存储空间,而基线方法则需要 146 兆字节的存储空间。

Sitzmann 说:「以前有人提出过光场,但却没有很好地利用。现在,我们提出的新方法首次表征了并使用了光场。这是数学模型和神经网络模型的有趣融合。」

实验结果

重建单个物体和房间规模的光场的外观和几何形状。该研究证明了  LFN 可以参数化单目标 ShapeNet [54] 和简单的 room-scale 环境 360 度光场。研究者在  ShapeNet「汽车」数据集上训练了 LFN,每个目标有 50 个观察值来自 [3],以及在 [13] 中的简单 room-scale  的环境。随后,研究中评估了 LFN 生成底层 3D 场景新视图的能力。结果见图 3:

image.png

多类别单视图重建

在 [5, 6] 之后,研究使用近期的全局调节方法对 LFN 进行基准测试,以完成 13 个最大 ShapeNet 类别的单视图重建和新视图合成任务。实验遵循与 [55] 相同的评估协议,并在所有类别中训练单个模型(参见图 4 和表 1)。

image.png


特定于类的单视图重建

随后,研究者在 SRN [3] 中提出的 Shapenet「汽车」和「椅子」类的单次重建上对 LFN 进行基准测试,结果如下图 5 所示。

image.png

与 pixelNeRF 进行全局与局部条件对比

研究者观察了全局条件的作用,即用单个  latent 描述整个场景 [3],以及局部条件的作用,即用 latents 在 2D 图像中根据像素推断并利用局部调节神经隐式表征  [24,25,6]。总体而言,LFN 在单类情况下的性能比 pixelNeRF 相差 1dB,在多类设置中比 pixelNeRF 相差 2dB。

image.png

实时渲染和存储成本

LFN 与基于体积和光线行进的神经渲染器 [3, 42, 19, 4, 6] 在渲染复杂度上的定量比较结果如下表 2 所示。

image.png

研究者表示,未来该模型将更加稳健,以便可以有效地用于复杂的现实世界场景。Sitzmann 表示:「推动 LFN 向前发展的一种方法是只专注于重建光场的某些补丁,这可以使模型在现实环境中运行得更快并表现得更好。」

相关文章
|
2月前
|
机器学习/深度学习 人工智能
昂贵LLM的救星?Nature新研究提出新型忆阻器,比Haswell CPU高效460倍
【10月更文挑战第11天】《自然》杂志最新研究介绍了一种新型忆阻器——线性对称自选14位动能分子忆阻器。该技术在神经网络训练和推理中表现出线性对称的权重更新、460倍于现有CPU的高能效及多级编程能力,有望大幅提升AI硬件的能源效率。尽管前景广阔,但仍需解决制造工艺复杂和环境影响等问题。
38 1
|
7月前
|
数据采集 人工智能 自然语言处理
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
【4月更文挑战第12天】谷歌DeepMind的Gecko模型以小巧身形(256维)展现出媲美大型语言模型的检索性能,且在MTEB基准测试中超越768维模型。采用两步蒸馏法训练,适用于多任务及硬件环境,尤其在多语言处理上表现出色。尽管训练成本高、泛化能力待优化,但其创新为文本嵌入技术带来新可能。
124 7
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
|
7月前
|
缓存 Dubbo 应用服务中间件
实现从10s到0.5s的飞跃,揭秘性能提升的秘诀
在数字时代,性能优化对各类技术系统和应用至关重要,关乎用户体验、效率和成本。某团队在面对系统响应慢的问题时,通过梳理逻辑、使用stopwatch排查,发现了数据库、连接池、日志打印和Dubbo配置等问题。他们优化了数据库的索引和锁机制,减少了日志打印的负担,调整了Dubbo的线程配置,并改进了日志组件,最终显著提升了系统性能。性能优化的方法包括代码优化、数据库优化、缓存技术、并发处理和资源管理,这是一个持续且需综合考虑稳定性和可靠性的过程。
62 2
|
7月前
|
机器学习/深度学习 存储 人工智能
存内计算芯片研究进展及应用—以基于NorFlash的卷积神经网络量化及部署研究突出存内计算特性
存内计算芯片研究进展及应用—以基于NorFlash的卷积神经网络量化及部署研究突出存内计算特性
396 3
|
缓存 人工智能 并行计算
小羊驼背后的英雄,伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增
小羊驼背后的英雄,伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增
503 0
|
机器学习/深度学习 编解码 计算机视觉
13层网络拿下83%精度,华为诺亚新型神经网络架构VanillaNet「简约」到极致
13层网络拿下83%精度,华为诺亚新型神经网络架构VanillaNet「简约」到极致
183 0
|
机器学习/深度学习 存储 人工智能
MIT、哈佛新研究:提速15000倍,借助光场实现3D场景超高速渲染
MIT、哈佛新研究:提速15000倍,借助光场实现3D场景超高速渲染
131 0
|
机器学习/深度学习 人工智能 缓存
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
272 0
|
存储 监控 并行计算
X86 vs ARM 架构同台竞技: 生物大数据大规模并行计算(如何将WGS全基因组计算成本降到1美元)
Sentieon DNAseq 实施的全基因组测序 (WGS) 二级分析流程与行业标准的 BWA-GATK 最佳实践流程结果相匹配,且运行速度提高了 5-20 倍。 Sentieon软件安装简单,开箱即用,并且提供了与ARM和x86指令集适配的版本。使30X WGS 数据样本在OCI 实例上的计算成本压缩到每个样本 1 美元以下,处理时间缩短到近一小时。
273 0
X86 vs ARM 架构同台竞技: 生物大数据大规模并行计算(如何将WGS全基因组计算成本降到1美元)
|
关系型数据库 5G 测试技术
IMT-2020定义的5G UDN应用场景性能指标与现有技术的差距 | 带你读《5G UDN(超密集网络)技术详解》之十七
5G UDN 以 4G LTE 微蜂 窝和小小区的技术为雏形基础,总目标发展成系统容量更大、综合性能 佳、成本更低、更加智能的异构蜂窝网络。
IMT-2020定义的5G UDN应用场景性能指标与现有技术的差距 |  带你读《5G UDN(超密集网络)技术详解》之十七
下一篇
DataWorks