每日学术速递4.23

简介: 神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.LiDAR-NeRF: Novel LiDAR View Synthesis via Neural Radiance Fields


2c8c0fd920ca58830513b2e89728a0f7.png


标题:LiDAR-NeRF:通过神经辐射场的新型 LiDAR 视图合成

作者:Tang Tao, Longfei Gao, Guangrun Wang, Peng Chen, Dayang Hao, Xiaodan Liang, Mathieu Salzmann, Kaicheng Yu

文章链接:https://arxiv.org/abs/2304.10406

f41afaa385abd384f629df19d4f67dc7.png

8e42cd8bc5b5d5b8120edab0b92e332f.png

cb1ec9e283bb1e2d6b23d945eda2276d.png

7e83f09b012a178b60c2ac3374a4e3c7.png

396d83307c96071e71272430b6d6441c.png

摘要:

       我们介绍了一项新任务,即 LiDAR 传感器的新颖视图合成。虽然带有风格迁移神经网络的传统基于模型的 LiDAR 模拟器可用于渲染新颖的视图,但它们在生成准确和逼真的 LiDAR 模式方面存在不足,因为它们所依赖的渲染器利用的是不可微分的游戏引擎。据我们所知,我们通过制定第一个可区分的 LiDAR 渲染器来解决这个问题,并提出了一个端到端的框架 LiDAR-NeRF,利用神经辐射场 (NeRF) 来共同学习几何和属性的 3D 点。为了评估我们方法的有效性,我们建立了一个以对象为中心的多视图 LiDAR 数据集,称为 NeRF-MVL。它包含从使用多个 LiDAR 传感器捕获的 360 度视点观察到的 9 个类别的对象观察结果。我们在场景级 KITTI-360 数据集和对象级 NeRF-MVL 上进行的大量实验表明,我们的 LiDAR-NeRF 显着优于基于模型的算法。

2.Tetra-NeRF: Representing Neural Radiance Fields Using Tetrahedra

b121d9c71d4cc58c2605223a72f606a4.png

标题:Tetra-NeRF:使用四面体表示神经辐射场

作者:Jonas Kulhanek, Torsten Sattler

文章链接:https://arxiv.org/abs/2304.06018

项目代码:https://jkulhanek.com/tetra-nerf

d09525ef4aee98cd77bbfa76e340a38d.png

274f27102808352e7bf78607231d2a51.png

6872cc19cc5725ebf518c1d6d1e9c466.png

摘要:

       神经辐射场 (NeRFs) 是一种非常新近且非常流行的方法,用于解决新视图合成和 3D 重建问题。NeRFs 使用的一种流行的场景表示是将场景的统一的、基于体素的细分与 MLP 相结合。基于场景的(稀疏)点云通常可用的观察,本文提出使用基于四面体和 Delaunay 表示的自适应表示,而不是均匀细分或基于点的表示。我们表明,这样的表示可以进行有效的训练并产生最先进的结果。我们的方法优雅地结合了 3D 几何处理、基于三角形的渲染和现代神经辐射场的概念。与基于体素的表示相比,我们的表示提供了可能靠近表面的场景部分的更多细节。与基于点的表示相比,我们的方法实现了更好的性能。

3.Learning Neural Duplex Radiance Fields for Real-Time View Synthesis(CVPR 2023)

7ff4c06fdd38abeb27c0f9108e002d27.png

标题:学习用于实时视图合成的神经双工辐射场

作者:Ziyu Wan, Christian Richardt, Aljaž Božič, Chao Li, Vijay Rengarajan, Seonghyeon Nam, Xiaoyu Xiang, Tuotuo Li, Bo Zhu, Rakesh Ranjan, Jing Liao

文章链接:https://arxiv.org/abs/2304.05977

项目代码:http://raywzy.com/NDRF/

2343965bc20501112dc99815f1c5dd14.png

6dc583b6c614dc568c17c67b5b9ea521.png

5f8945bfbe9c29539b4d98b364de0a25.png

df74145b1c937753af6170d0b55e98fd.png


摘要:

       神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。在本文中,我们提出了一种新颖的方法来将 NeRF 提取和烘焙为高效的基于网格的神经表示,这些表示与大规模并行图形渲染管道完全兼容。我们将场景表示为在双层双工网格上编码的神经辐射特征,通过从可靠的光线-表面相交区间学习聚合辐射信息,有效克服了 3D 表面重建中固有的不准确性。为了利用附近像素的局部几何关系,我们利用屏幕空间卷积代替 NeRF 中使用的 MLP 来实现高质量的外观。最后,整个框架的性能通过一种新颖的多视图蒸馏优化策略得到进一步提升。我们通过对一系列标准数据集的广泛实验证明了我们方法的有效性和优越性。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
95 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
129 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
93 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
65 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
130 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
114 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.17
扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子
117 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
132 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
95 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
92 0