每日学术速递4.23

简介: 神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.LiDAR-NeRF: Novel LiDAR View Synthesis via Neural Radiance Fields


2c8c0fd920ca58830513b2e89728a0f7.png


标题:LiDAR-NeRF:通过神经辐射场的新型 LiDAR 视图合成

作者:Tang Tao, Longfei Gao, Guangrun Wang, Peng Chen, Dayang Hao, Xiaodan Liang, Mathieu Salzmann, Kaicheng Yu

文章链接:https://arxiv.org/abs/2304.10406

f41afaa385abd384f629df19d4f67dc7.png

8e42cd8bc5b5d5b8120edab0b92e332f.png

cb1ec9e283bb1e2d6b23d945eda2276d.png

7e83f09b012a178b60c2ac3374a4e3c7.png

396d83307c96071e71272430b6d6441c.png

摘要:

       我们介绍了一项新任务,即 LiDAR 传感器的新颖视图合成。虽然带有风格迁移神经网络的传统基于模型的 LiDAR 模拟器可用于渲染新颖的视图,但它们在生成准确和逼真的 LiDAR 模式方面存在不足,因为它们所依赖的渲染器利用的是不可微分的游戏引擎。据我们所知,我们通过制定第一个可区分的 LiDAR 渲染器来解决这个问题,并提出了一个端到端的框架 LiDAR-NeRF,利用神经辐射场 (NeRF) 来共同学习几何和属性的 3D 点。为了评估我们方法的有效性,我们建立了一个以对象为中心的多视图 LiDAR 数据集,称为 NeRF-MVL。它包含从使用多个 LiDAR 传感器捕获的 360 度视点观察到的 9 个类别的对象观察结果。我们在场景级 KITTI-360 数据集和对象级 NeRF-MVL 上进行的大量实验表明,我们的 LiDAR-NeRF 显着优于基于模型的算法。

2.Tetra-NeRF: Representing Neural Radiance Fields Using Tetrahedra

b121d9c71d4cc58c2605223a72f606a4.png

标题:Tetra-NeRF:使用四面体表示神经辐射场

作者:Jonas Kulhanek, Torsten Sattler

文章链接:https://arxiv.org/abs/2304.06018

项目代码:https://jkulhanek.com/tetra-nerf

d09525ef4aee98cd77bbfa76e340a38d.png

274f27102808352e7bf78607231d2a51.png

6872cc19cc5725ebf518c1d6d1e9c466.png

摘要:

       神经辐射场 (NeRFs) 是一种非常新近且非常流行的方法,用于解决新视图合成和 3D 重建问题。NeRFs 使用的一种流行的场景表示是将场景的统一的、基于体素的细分与 MLP 相结合。基于场景的(稀疏)点云通常可用的观察,本文提出使用基于四面体和 Delaunay 表示的自适应表示,而不是均匀细分或基于点的表示。我们表明,这样的表示可以进行有效的训练并产生最先进的结果。我们的方法优雅地结合了 3D 几何处理、基于三角形的渲染和现代神经辐射场的概念。与基于体素的表示相比,我们的表示提供了可能靠近表面的场景部分的更多细节。与基于点的表示相比,我们的方法实现了更好的性能。

3.Learning Neural Duplex Radiance Fields for Real-Time View Synthesis(CVPR 2023)

7ff4c06fdd38abeb27c0f9108e002d27.png

标题:学习用于实时视图合成的神经双工辐射场

作者:Ziyu Wan, Christian Richardt, Aljaž Božič, Chao Li, Vijay Rengarajan, Seonghyeon Nam, Xiaoyu Xiang, Tuotuo Li, Bo Zhu, Rakesh Ranjan, Jing Liao

文章链接:https://arxiv.org/abs/2304.05977

项目代码:http://raywzy.com/NDRF/

2343965bc20501112dc99815f1c5dd14.png

6dc583b6c614dc568c17c67b5b9ea521.png

5f8945bfbe9c29539b4d98b364de0a25.png

df74145b1c937753af6170d0b55e98fd.png


摘要:

       神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。在本文中,我们提出了一种新颖的方法来将 NeRF 提取和烘焙为高效的基于网格的神经表示,这些表示与大规模并行图形渲染管道完全兼容。我们将场景表示为在双层双工网格上编码的神经辐射特征,通过从可靠的光线-表面相交区间学习聚合辐射信息,有效克服了 3D 表面重建中固有的不准确性。为了利用附近像素的局部几何关系,我们利用屏幕空间卷积代替 NeRF 中使用的 MLP 来实现高质量的外观。最后,整个框架的性能通过一种新颖的多视图蒸馏优化策略得到进一步提升。我们通过对一系列标准数据集的广泛实验证明了我们方法的有效性和优越性。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
115 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
147 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
86 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
133 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
158 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
206 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
158 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
171 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
124 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
160 0

热门文章

最新文章