每日学术速递3.29

简介: 由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Grid-guided Neural Radiance Fields for Large Urban Scenes

56a57ad12fcef0b13cc7f169646a6615.png


标题:用于大型城市场景的网格引导神经辐射场

作者:Linning Xu, Yuanbo Xiangli, Sida Peng, Xingang Pan, Nanxuan Zhao, Christian Theobalt, Bo Dai, Dahua Lin

文章链接:https://arxiv.org/abs/2303.14001

项目代码:https://city-super.github.io/gridnerf/

af45c7ec16d57b04c57999d26552f2e3.png

447246d8cbb994994dc65dab19c6fa10.png

摘要:

       由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。另一种解决方案是使用特征网格表示,它计算效率高,并且可以自然地扩展到具有更高网格分辨率的大场景。然而,特征网格往往受到较少的约束并且经常达到次优的解决方案,从而在渲染中产生嘈杂的伪影,特别是在具有复杂几何和纹理的区域中。在这项工作中,我们提出了一个新的框架,可以在计算效率高的同时实现大型城市场景的高保真渲染。我们建议使用紧凑的多分辨率地面特征平面表示来粗略捕获场景,并通过另一个 NeRF 分支用位置编码输入对其进行补充,以联合学习方式进行渲染。我们表明,这种集成可以利用两种替代解决方案的优势:在特征网格表示的指导下,轻量级 NeRF 足以渲染具有精细细节的逼真新颖视图;和联合优化的地面特征平面,可以同时获得进一步的细化,形成更准确和紧凑的特征空间,输出更自然的渲染结果。

2.Progressively Optimized Local Radiance Fields for Robust View Synthesis

57687a3564c03911d29c2794cb791899.png

标题:渐进优化的局部辐射场,用于稳健的视图合成

作者:Andreas Meuleman, Yu-Lun Liu, Chen Gao, Jia-Bin Huang, Changil Kim, Min H. Kim, Johannes Kopf

文章链接:https://arxiv.org/abs/2303.13791

项目代码:https://localrf.github.io/

17230446908ffcba81ccec1a2e34f1ca.png

230365b24eb444d1ee923c8a2bffce0c.png

a0b2794330c4d62e3ed73f38789be7bc.png

摘要:

       我们提出了一种算法,用于从一个随意拍摄的视频中重建大型场景的辐射场。这项任务提出了两个核心挑战。首先,大多数现有的辐射场重建方法都依赖于从运动结构算法中准确预估的相机姿态,这在野外视频中经常失败。其次,使用具有有限表示能力的单一全局辐射场不能扩展到无界场景中的更长轨迹。为了处理未知姿势,我们以渐进的方式联合估计具有辐射场的相机姿势。我们表明,渐进优化显着提高了重建的稳健性。为了处理大型无界场景,我们动态分配新的局部辐射场,在时间窗口内用帧训练。这进一步提高了鲁棒性(例如,即使在适度的姿势漂移下也表现良好)并允许我们扩展到大场景。我们对 Tanks and Temples 数据集和我们收集的户外数据集 Static Hikes 的广泛评估表明,我们的方法与最先进的方法相比毫不逊色。

3.Reflexion: an autonomous agent with dynamic memory and self-reflection

8ba70706ae91b289f23557387f757c7c.png


标题:Reflexion: 具有动态记忆和自我反射的自治代理

作者:Jiayu Jiao, Yu-Ming Tang, Kun-Yu Lin, Yipeng Gao, Jinhua Ma, YaoWei Wang, Wei-Shi Zheng

文章链接:https://arxiv.org/abs/2303.11366

项目代码:https://github.com/noahshinn024/reflexion

6756c20044a20919f3367dac40b7ef37.png

a4d916732ae67f9e3e6d1a1aec4d518b.png

摘要:

       决策制定大型语言模型 (LLM) 代理的最新进展在各种基准测试中展示了令人印象深刻的性能。然而,这些最先进的方法通常需要对定义的状态空间进行内部模型微调、外部模型微调或策略优化。由于缺乏高质量的训练数据或缺乏明确定义的状态空间,实施这些方法可能具有挑战性。此外,这些代理不具备人类决策过程所固有的某些品质,特别是从错误中学习的能力。自我反省使人类能够通过反复试验的过程有效地解决新问题。基于最近的研究,我们提出了 Reflexion,这是一种赋予代理动态记忆和自我反思能力的方法,以增强其现有的推理轨迹和特定任务的行动选择能力。为了实现完全自动化,我们引入了一种简单而有效的启发式方法,使代理能够查明幻觉实例,避免重复动作序列,并且在某些环境中构建给定环境的内部记忆映射。为了评估我们的方法,我们评估了代理在 AlfWorld 环境中完成决策任务的能力,以及在 HotPotQA 环境中完成知识密集型、基于搜索的问答任务的能力。我们观察到成功率分别为 97% 和 51%,并讨论了自我反思的涌现特性。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
146 0
每日学术速递3.9
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
166 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
155 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
90 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
156 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
93 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
123 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
171 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
108 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
151 0