每日学术速递4.23

简介: 神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.LiDAR-NeRF: Novel LiDAR View Synthesis via Neural Radiance Fields


2c8c0fd920ca58830513b2e89728a0f7.png


标题:LiDAR-NeRF:通过神经辐射场的新型 LiDAR 视图合成

作者:Tang Tao, Longfei Gao, Guangrun Wang, Peng Chen, Dayang Hao, Xiaodan Liang, Mathieu Salzmann, Kaicheng Yu

文章链接:https://arxiv.org/abs/2304.10406

f41afaa385abd384f629df19d4f67dc7.png

8e42cd8bc5b5d5b8120edab0b92e332f.png

cb1ec9e283bb1e2d6b23d945eda2276d.png

7e83f09b012a178b60c2ac3374a4e3c7.png

396d83307c96071e71272430b6d6441c.png

摘要:

       我们介绍了一项新任务,即 LiDAR 传感器的新颖视图合成。虽然带有风格迁移神经网络的传统基于模型的 LiDAR 模拟器可用于渲染新颖的视图,但它们在生成准确和逼真的 LiDAR 模式方面存在不足,因为它们所依赖的渲染器利用的是不可微分的游戏引擎。据我们所知,我们通过制定第一个可区分的 LiDAR 渲染器来解决这个问题,并提出了一个端到端的框架 LiDAR-NeRF,利用神经辐射场 (NeRF) 来共同学习几何和属性的 3D 点。为了评估我们方法的有效性,我们建立了一个以对象为中心的多视图 LiDAR 数据集,称为 NeRF-MVL。它包含从使用多个 LiDAR 传感器捕获的 360 度视点观察到的 9 个类别的对象观察结果。我们在场景级 KITTI-360 数据集和对象级 NeRF-MVL 上进行的大量实验表明,我们的 LiDAR-NeRF 显着优于基于模型的算法。

2.Tetra-NeRF: Representing Neural Radiance Fields Using Tetrahedra

b121d9c71d4cc58c2605223a72f606a4.png

标题:Tetra-NeRF:使用四面体表示神经辐射场

作者:Jonas Kulhanek, Torsten Sattler

文章链接:https://arxiv.org/abs/2304.06018

项目代码:https://jkulhanek.com/tetra-nerf

d09525ef4aee98cd77bbfa76e340a38d.png

274f27102808352e7bf78607231d2a51.png

6872cc19cc5725ebf518c1d6d1e9c466.png

摘要:

       神经辐射场 (NeRFs) 是一种非常新近且非常流行的方法,用于解决新视图合成和 3D 重建问题。NeRFs 使用的一种流行的场景表示是将场景的统一的、基于体素的细分与 MLP 相结合。基于场景的(稀疏)点云通常可用的观察,本文提出使用基于四面体和 Delaunay 表示的自适应表示,而不是均匀细分或基于点的表示。我们表明,这样的表示可以进行有效的训练并产生最先进的结果。我们的方法优雅地结合了 3D 几何处理、基于三角形的渲染和现代神经辐射场的概念。与基于体素的表示相比,我们的表示提供了可能靠近表面的场景部分的更多细节。与基于点的表示相比,我们的方法实现了更好的性能。

3.Learning Neural Duplex Radiance Fields for Real-Time View Synthesis(CVPR 2023)

7ff4c06fdd38abeb27c0f9108e002d27.png

标题:学习用于实时视图合成的神经双工辐射场

作者:Ziyu Wan, Christian Richardt, Aljaž Božič, Chao Li, Vijay Rengarajan, Seonghyeon Nam, Xiaoyu Xiang, Tuotuo Li, Bo Zhu, Rakesh Ranjan, Jing Liao

文章链接:https://arxiv.org/abs/2304.05977

项目代码:http://raywzy.com/NDRF/

2343965bc20501112dc99815f1c5dd14.png

6dc583b6c614dc568c17c67b5b9ea521.png

5f8945bfbe9c29539b4d98b364de0a25.png

df74145b1c937753af6170d0b55e98fd.png


摘要:

       神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。在本文中,我们提出了一种新颖的方法来将 NeRF 提取和烘焙为高效的基于网格的神经表示,这些表示与大规模并行图形渲染管道完全兼容。我们将场景表示为在双层双工网格上编码的神经辐射特征,通过从可靠的光线-表面相交区间学习聚合辐射信息,有效克服了 3D 表面重建中固有的不准确性。为了利用附近像素的局部几何关系,我们利用屏幕空间卷积代替 NeRF 中使用的 MLP 来实现高质量的外观。最后,整个框架的性能通过一种新颖的多视图蒸馏优化策略得到进一步提升。我们通过对一系列标准数据集的广泛实验证明了我们方法的有效性和优越性。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
114 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
121 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
79 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
132 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
116 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
129 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
144 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
185 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
109 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
151 0