每日学术速递3.29

简介: 由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Grid-guided Neural Radiance Fields for Large Urban Scenes

56a57ad12fcef0b13cc7f169646a6615.png


标题:用于大型城市场景的网格引导神经辐射场

作者:Linning Xu, Yuanbo Xiangli, Sida Peng, Xingang Pan, Nanxuan Zhao, Christian Theobalt, Bo Dai, Dahua Lin

文章链接:https://arxiv.org/abs/2303.14001

项目代码:https://city-super.github.io/gridnerf/

af45c7ec16d57b04c57999d26552f2e3.png

447246d8cbb994994dc65dab19c6fa10.png

摘要:

       由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。另一种解决方案是使用特征网格表示,它计算效率高,并且可以自然地扩展到具有更高网格分辨率的大场景。然而,特征网格往往受到较少的约束并且经常达到次优的解决方案,从而在渲染中产生嘈杂的伪影,特别是在具有复杂几何和纹理的区域中。在这项工作中,我们提出了一个新的框架,可以在计算效率高的同时实现大型城市场景的高保真渲染。我们建议使用紧凑的多分辨率地面特征平面表示来粗略捕获场景,并通过另一个 NeRF 分支用位置编码输入对其进行补充,以联合学习方式进行渲染。我们表明,这种集成可以利用两种替代解决方案的优势:在特征网格表示的指导下,轻量级 NeRF 足以渲染具有精细细节的逼真新颖视图;和联合优化的地面特征平面,可以同时获得进一步的细化,形成更准确和紧凑的特征空间,输出更自然的渲染结果。

2.Progressively Optimized Local Radiance Fields for Robust View Synthesis

57687a3564c03911d29c2794cb791899.png

标题:渐进优化的局部辐射场,用于稳健的视图合成

作者:Andreas Meuleman, Yu-Lun Liu, Chen Gao, Jia-Bin Huang, Changil Kim, Min H. Kim, Johannes Kopf

文章链接:https://arxiv.org/abs/2303.13791

项目代码:https://localrf.github.io/

17230446908ffcba81ccec1a2e34f1ca.png

230365b24eb444d1ee923c8a2bffce0c.png

a0b2794330c4d62e3ed73f38789be7bc.png

摘要:

       我们提出了一种算法,用于从一个随意拍摄的视频中重建大型场景的辐射场。这项任务提出了两个核心挑战。首先,大多数现有的辐射场重建方法都依赖于从运动结构算法中准确预估的相机姿态,这在野外视频中经常失败。其次,使用具有有限表示能力的单一全局辐射场不能扩展到无界场景中的更长轨迹。为了处理未知姿势,我们以渐进的方式联合估计具有辐射场的相机姿势。我们表明,渐进优化显着提高了重建的稳健性。为了处理大型无界场景,我们动态分配新的局部辐射场,在时间窗口内用帧训练。这进一步提高了鲁棒性(例如,即使在适度的姿势漂移下也表现良好)并允许我们扩展到大场景。我们对 Tanks and Temples 数据集和我们收集的户外数据集 Static Hikes 的广泛评估表明,我们的方法与最先进的方法相比毫不逊色。

3.Reflexion: an autonomous agent with dynamic memory and self-reflection

8ba70706ae91b289f23557387f757c7c.png


标题:Reflexion: 具有动态记忆和自我反射的自治代理

作者:Jiayu Jiao, Yu-Ming Tang, Kun-Yu Lin, Yipeng Gao, Jinhua Ma, YaoWei Wang, Wei-Shi Zheng

文章链接:https://arxiv.org/abs/2303.11366

项目代码:https://github.com/noahshinn024/reflexion

6756c20044a20919f3367dac40b7ef37.png

a4d916732ae67f9e3e6d1a1aec4d518b.png

摘要:

       决策制定大型语言模型 (LLM) 代理的最新进展在各种基准测试中展示了令人印象深刻的性能。然而,这些最先进的方法通常需要对定义的状态空间进行内部模型微调、外部模型微调或策略优化。由于缺乏高质量的训练数据或缺乏明确定义的状态空间,实施这些方法可能具有挑战性。此外,这些代理不具备人类决策过程所固有的某些品质,特别是从错误中学习的能力。自我反省使人类能够通过反复试验的过程有效地解决新问题。基于最近的研究,我们提出了 Reflexion,这是一种赋予代理动态记忆和自我反思能力的方法,以增强其现有的推理轨迹和特定任务的行动选择能力。为了实现完全自动化,我们引入了一种简单而有效的启发式方法,使代理能够查明幻觉实例,避免重复动作序列,并且在某些环境中构建给定环境的内部记忆映射。为了评估我们的方法,我们评估了代理在 AlfWorld 环境中完成决策任务的能力,以及在 HotPotQA 环境中完成知识密集型、基于搜索的问答任务的能力。我们观察到成功率分别为 97% 和 51%,并讨论了自我反思的涌现特性。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
144 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.29
在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。
145 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
130 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
85 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
146 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
105 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
134 0
|
传感器 机器学习/深度学习 自然语言处理
每日学术速递2.22
时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。
114 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
128 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
99 0