前段时间,CVPR 2022 公布了今年的论文接收结果,同时也意味着投稿的论文终于熬过了静默期。不少作者都感叹:终于可以在社交媒体上聊聊我们的论文了!
今天要介绍的论文来自谷歌研究院和哈佛大学。谷歌研究科学家、论文一作 Jon Barron 表示,他们开发了一种名为 Mip-NeRF 360 的模型,该模型能够生成无界场景的逼真渲染,给我们带来了 360° 的逼真效果和漂亮的深度图。
下面是几张效果图:
这么好的效果什么时候能让 VR 头盔用上
作者回答说,「我们已经可以在浏览器 (http://nerf.live) 或桌面 GPU (https://nvlabs.github.io/instant-ngp/) 上实时渲染 NeRF,所以把它放到 VR 头盔上应该是可行的。」
论文概览
神经辐射场 (NeRF) 通过在基于坐标的多层感知器 (MLP) 的权重内编码场景的体积密度和颜色,来合成高度逼真的场景渲染。这种方法在逼真的视图合成方面取得了重大进展 [30]。然而,NeRF 使用 3D 点对 MLP 的输入进行建模,这在渲染不同分辨率的视图时会导致混叠。
基于这个问题,Mip-NeRF 扩展了 NeRF ,不再对沿锥体的体积截头体进行推理 [3]。尽管这样做提高了质量,但 NeRF 和 mipNeRF 在处理无界场景时会遇到挑战,无界场景中的相机可能面向任何方向并且场景内容可能位于任何位置。
在这篇论文中,研究者提出了对 mip-NeRF 的扩展 ——mip-NeRF 360,它能够生成这些无界场景的逼真渲染(图 1)。
将类似 NeRF 的模型应用于大型无界场景会引发三个关键问题:
- 参数化问题。mip-NeRF 要求将 3D 场景坐标映射到有界域,所以无界的 360 度的场景会占据无穷大的欧式空间区域。
- 效率问题。巨大且细节化的场景需要巨大的网络容量,所以在训练期间,频繁地沿每条射线去查询巨大的 MLP 网络会产生巨大的消耗 。
- 歧义问题。无界 360 度场景的背景区域明显比中心区域的光线稀疏。这种现象加剧了从 2D 图像重建 3D 内容的固有模糊性。
基于上述问题,研究者提出了 mip-NeRF 的扩展模型,它使用非线性场景参数化、在线蒸馏和新颖的基于失真的正则化器来克服无界场景带来的挑战。新模型被称为「mip-NeRF 360」,因为该研究针对的是相机围绕一个点旋转 360 度的场景,与 mip-NeRF 相比,均方误差降低了 54%,并且能够生成逼真的合成视图和详细的深度用于高度复杂、无界的现实世界场景的地图。
技术细节
让 mip-NeRF 在无界场景中正常工作存在三个主要问题,而本文的三个主要贡献旨在解决这些问题。接下来,让我们结合作者给出的解读视频来了解一下。