每日学术速递3.29

简介: 由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Grid-guided Neural Radiance Fields for Large Urban Scenes

56a57ad12fcef0b13cc7f169646a6615.png


标题:用于大型城市场景的网格引导神经辐射场

作者:Linning Xu, Yuanbo Xiangli, Sida Peng, Xingang Pan, Nanxuan Zhao, Christian Theobalt, Bo Dai, Dahua Lin

文章链接:https://arxiv.org/abs/2303.14001

项目代码:https://city-super.github.io/gridnerf/

af45c7ec16d57b04c57999d26552f2e3.png

447246d8cbb994994dc65dab19c6fa10.png

摘要:

       由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。另一种解决方案是使用特征网格表示,它计算效率高,并且可以自然地扩展到具有更高网格分辨率的大场景。然而,特征网格往往受到较少的约束并且经常达到次优的解决方案,从而在渲染中产生嘈杂的伪影,特别是在具有复杂几何和纹理的区域中。在这项工作中,我们提出了一个新的框架,可以在计算效率高的同时实现大型城市场景的高保真渲染。我们建议使用紧凑的多分辨率地面特征平面表示来粗略捕获场景,并通过另一个 NeRF 分支用位置编码输入对其进行补充,以联合学习方式进行渲染。我们表明,这种集成可以利用两种替代解决方案的优势:在特征网格表示的指导下,轻量级 NeRF 足以渲染具有精细细节的逼真新颖视图;和联合优化的地面特征平面,可以同时获得进一步的细化,形成更准确和紧凑的特征空间,输出更自然的渲染结果。

2.Progressively Optimized Local Radiance Fields for Robust View Synthesis

57687a3564c03911d29c2794cb791899.png

标题:渐进优化的局部辐射场,用于稳健的视图合成

作者:Andreas Meuleman, Yu-Lun Liu, Chen Gao, Jia-Bin Huang, Changil Kim, Min H. Kim, Johannes Kopf

文章链接:https://arxiv.org/abs/2303.13791

项目代码:https://localrf.github.io/

17230446908ffcba81ccec1a2e34f1ca.png

230365b24eb444d1ee923c8a2bffce0c.png

a0b2794330c4d62e3ed73f38789be7bc.png

摘要:

       我们提出了一种算法,用于从一个随意拍摄的视频中重建大型场景的辐射场。这项任务提出了两个核心挑战。首先,大多数现有的辐射场重建方法都依赖于从运动结构算法中准确预估的相机姿态,这在野外视频中经常失败。其次,使用具有有限表示能力的单一全局辐射场不能扩展到无界场景中的更长轨迹。为了处理未知姿势,我们以渐进的方式联合估计具有辐射场的相机姿势。我们表明,渐进优化显着提高了重建的稳健性。为了处理大型无界场景,我们动态分配新的局部辐射场,在时间窗口内用帧训练。这进一步提高了鲁棒性(例如,即使在适度的姿势漂移下也表现良好)并允许我们扩展到大场景。我们对 Tanks and Temples 数据集和我们收集的户外数据集 Static Hikes 的广泛评估表明,我们的方法与最先进的方法相比毫不逊色。

3.Reflexion: an autonomous agent with dynamic memory and self-reflection

8ba70706ae91b289f23557387f757c7c.png


标题:Reflexion: 具有动态记忆和自我反射的自治代理

作者:Jiayu Jiao, Yu-Ming Tang, Kun-Yu Lin, Yipeng Gao, Jinhua Ma, YaoWei Wang, Wei-Shi Zheng

文章链接:https://arxiv.org/abs/2303.11366

项目代码:https://github.com/noahshinn024/reflexion

6756c20044a20919f3367dac40b7ef37.png

a4d916732ae67f9e3e6d1a1aec4d518b.png

摘要:

       决策制定大型语言模型 (LLM) 代理的最新进展在各种基准测试中展示了令人印象深刻的性能。然而,这些最先进的方法通常需要对定义的状态空间进行内部模型微调、外部模型微调或策略优化。由于缺乏高质量的训练数据或缺乏明确定义的状态空间,实施这些方法可能具有挑战性。此外,这些代理不具备人类决策过程所固有的某些品质,特别是从错误中学习的能力。自我反省使人类能够通过反复试验的过程有效地解决新问题。基于最近的研究,我们提出了 Reflexion,这是一种赋予代理动态记忆和自我反思能力的方法,以增强其现有的推理轨迹和特定任务的行动选择能力。为了实现完全自动化,我们引入了一种简单而有效的启发式方法,使代理能够查明幻觉实例,避免重复动作序列,并且在某些环境中构建给定环境的内部记忆映射。为了评估我们的方法,我们评估了代理在 AlfWorld 环境中完成决策任务的能力,以及在 HotPotQA 环境中完成知识密集型、基于搜索的问答任务的能力。我们观察到成功率分别为 97% 和 51%,并讨论了自我反思的涌现特性。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
108 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
140 0
每日学术速递4.3
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
143 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
138 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
92 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
120 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
125 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
103 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
116 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
138 0
下一篇
无影云桌面