联合NeRF与特征网格,实现超大规模城市渲染,高效且逼真

简介: 联合NeRF与特征网格,实现超大规模城市渲染,高效且逼真


在这项工作中,研究人员以大型城市场景渲染为目标,提出一个新的框架,集成了基于 MLP 的 NeRF 与显式 3D 重建的特征网格,以有效地编码局部和全局场景信息。 该方法克服了现有方法在大规模场景中应用的各种缺点,即使在大规模城市场景中也能实现高保真度的渲染,这对于现实世界的应用场景至关重要。

 纯基于 MLP 的神经辐射场(NeRF)由于模型容量有限,在大规模场景模糊渲染中往往存在欠拟合现象。最近有研究者提出对场景进行地理划分、并采用多个子 NeRF,分别对每个区域进行建模,然而,这样做带来的问题是随着场景的逐渐扩展,训练成本和子 NeRF 的数量呈线性扩大。

另一种解决方案是使用体素特征网格表示,该方法计算效率高,可以自然地扩展到具有增加网格分辨率的大场景。然而,特征网格由于约束较少往往只能达到次优解,在渲染中产生一些噪声伪影,特别是在具有复杂几何和纹理的区域。

本文中,来自香港中文大学、上海人工智能实验室等机构的研究者提出了一个新的框架,用来实现高保真渲染的城市(Ubran)场景,同时兼顾计算效率,入选 CVPR 2023。该研究使用一个紧凑的多分辨率 ground 特征平面表示来粗略地捕获场景,并通过一个 NeRF 分支网络用位置编码输入来补充它,以联合学习的方式进行渲染。这种方式集成了两种方案的优点:在特征网格表示的指导下,轻加权 NeRF 足以呈现具有细节的逼真新视角;联合优化的 ground 特征平面可以获得进一步的细化,形成更精确、更紧凑的特征空间,输出更自然的渲染结果。


下图为该研究方法对真实世界 Ubran 场景的示例结果,给人一种沉浸式城市漫游体验:


方法介绍

为了有效利用隐式神经表示重建大型城市场景,该研究提出了一个双分支模型架构,它采用统一的场景表示,集成了基于显式体素网格和基于隐式的 NeRF 方法,这两种类型的表示可以互补。

首先在预训练阶段使用特征网格对目标场景进行建模,从而粗糙地捕捉场景的几何形状和外观。然后使用粗特征网格,1) 引导 NeRF 点采样,使其集中在场景表面周围;2) 为 NeRF 的位置编码提供关于场景几何形状和在采样位置上的外观额外特征。在这样的指导下,NeRF 可以在一个大大压缩的采样空间中有效地获取更精细的细节。此外,由于粗层级的几何图形和外观信息被明确地提供给 NeRF,一个轻量级的 MLP 就足以学习从全局坐标到体积密度和颜色值的映射。在第二个联合学习阶段,通过来自 NeRF 分支的梯度对粗特征网格进行进一步优化,并对其进行规范化,从而在单独应用时产生更准确和自然的渲染结果。

该研究的核心是一个新的双分支结构,即网格分支和 NeRF 分支。1) 研究人员首先在预训练阶段捕捉特征平面的金字塔场景,并通过浅 MLP 渲染器(网格分支)对射线点进行粗略的采样,并预测它们的辐射值,由体积积分像素颜色上的 MSE 损失监督。这一步生成一组信息丰富的多分辨率密度 / 外观特征平面。2) 接下来,研究人员进入联合学习阶段,并进行更精细的抽样。研究人员使用学习到的特征网格来指导 NeRF 分支采样,以集中在场景表面。通过在特征平面上的双线性插值法,推导出采样点的网格特征。然后将这些特征与位置编码连接,并输入 NeRF 分支以预测体积密度和颜色。请注意,在联合训练过程中,网格分支的输出仍然使用 ground 真实图像以及来自 NeRF 分支的精细渲染结果进行监督。

目标场景:在这项工作中,该研究使用新颖的网格引导神经辐射场执行大型城市场景渲染。下图左侧显示了一个大型城市场景的示例,它跨越 2.7km^2 的地面区域,由超过 5k 的无人机图像捕获。研究表明,基于 NeRF 方法渲染结果模糊且过度平滑且模型容量有限,而基于特征网格的方法在适应具有高分辨率特征网格的大规模场景时往往会显示嘈杂的伪影。该研究提出的双分支模型结合了两种方法的优点,并通过对现有方法的显着改进实现了逼真的新颖视图渲染。这两个分支都比各自的基线获得了显着增强。

实验

研究人员在下图和表格中报告了 baseline 的性能和研究人员的方法作对比。无论从定性和定量上看。在视觉质量和所有指标方面都可以观察到显著的改善。与纯粹的基于 MLP 的方法(NeRF 和 Mega-NeRF)相比,研究人员的方法揭示了更清晰的几何形状和更精细的细节。特别是由于 NeRF 的有限容量和光谱偏差,它总是不能模拟几何形状和颜色的快速变化,如操场上的植被和条纹。尽管像 Mega-NeRF 的 baseline 中显示的那样,在地理位置上将场景划分为小区域稍有帮助,但呈现的结果仍然显得过于平滑。相反,在学习特征网格的引导下,NeRF 的采样空间被有效地、大大地压缩到场景表面附近。从 ground 特征平面采样的密度和外观特征明确地表示了场景内容,如图 3 所示。尽管不那么准确,但它已经提供了信息丰富的局部几何图形和纹理,并鼓励 NeRF 的位置编码来收集缺失的场景细节。

下表 1 为定量结果:

图 6 可以观察到渲染保真度的快速提高:

了解更多内容,请参考原论文。

相关文章
|
传感器 数据可视化 vr&ar
三维视觉产品方案介绍
三维视觉产品方案介绍
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
|
10天前
|
数据可视化 vr&ar 图形学
5秒内快速生成、直出工业级PBR资产,三维扩散模型3DTopia-XL开源
【10月更文挑战第26天】在数字时代,高质量3D资产的需求日益增长,但创建这些资产通常耗时且昂贵。3DTopia-XL是一种新型三维扩散模型,由香港中文大学、东京大学和南洋理工大学等机构的研究人员合作开发。该模型通过使用原始扩散技术和PrimX表示方法,能够在短时间内生成具有高几何保真度和精细纹理的3D资产,大大降低了3D内容创建的门槛。尽管存在一些局限性,3DTopia-XL仍展示了巨大的潜力,未来有望在多个行业中得到广泛应用。
22 2
|
2月前
|
知识图谱
KDD 2024:Emory提出最新PolygonGNN框架:可捕捉通用多边形内外的空间关系
【9月更文挑战第16天】近年来,多边形表示学习在形状编码、建筑模式分类和地理问答等应用中至关重要。然而,现有研究多聚焦于单个多边形,忽视了多边形间复杂关系。为解决此问题,Emory大学团队提出了PolygonGNN框架,通过异质可见性图整合内外关系,并引入异质生成树采样提升计算效率。该框架设计了旋转平移不变的几何表示,适用于多种场景。实验结果显示,PolygonGNN在多个任务上表现优异,但在处理大规模场景时仍面临计算复杂度挑战,并未充分考虑拓扑结构和语义信息的影响。
32 2
|
6月前
|
人工智能 vr&ar 开发者
大型多视角高斯模型LGM:5秒产出高质量3D物体
【2月更文挑战第9天】大型多视角高斯模型LGM:5秒产出高质量3D物体
89 1
大型多视角高斯模型LGM:5秒产出高质量3D物体
|
存储 传感器 编解码
苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割
苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割
125 0
|
6月前
|
编解码 算法 数据处理
【论文速递】ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据立体三维定位方法
【论文速递】ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据立体三维定位方法
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
|
机器学习/深度学习 编解码 计算机视觉
全新轻量化模型 | 轻量化沙漏网络助力视觉感知涨点
全新轻量化模型 | 轻量化沙漏网络助力视觉感知涨点
164 0
|
机器学习/深度学习 人工智能 数据可视化
重塑自监督学习: DINO 网络如何颠覆视觉特征表示的常规方法
重塑自监督学习: DINO 网络如何颠覆视觉特征表示的常规方法
1948 0
下一篇
无影云桌面