每日学术速递3.21

2023-05-15 145

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 随着神经辐射场 (NeRFs) 的引入，新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射，从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景，但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示，支持实时渲染和基于物理的模拟等任务。

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.NeRFMeshing: Distilling Neural Radiance Fields into Geometrically-Accurate 3D Meshes

标题：NeRFMeshing：将神经辐射场提取为几何精确的 3D 网格

作者：Marie-Julie Rakotosaona, Fabian Manhardt, Diego Martin Arroyo, Michael Niemeyer, Abhijit Kundu, Federico Tombari

文章链接：https://arxiv.org/abs/2303.09431

摘要：

随着神经辐射场 (NeRFs) 的引入，新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射，从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景，但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示，支持实时渲染和基于物理的模拟等任务。从神经辐射场获得 3D 网格仍然是一个开放的挑战，因为 NeRFs 针对视图合成进行了优化，而不是在辐射场上强制执行准确的底层几何结构。因此，我们提出了一种新颖的紧凑且灵活的架构，可以通过任何 NeRF 驱动的方法轻松进行 3D 表面重建。训练完辐射场后，我们将体积 3D 表示提炼到带符号的表面近似网络中，从而可以轻松提取 3D 网格和外观。我们最终的 3D 网格在物理上是准确的，并且可以在一系列设备上实时渲染。

2.DeepMIM: Deep Supervision for Masked Image Modeling

标题：DeepMIM：蒙版图像建模的深度监督

作者：Sucheng Ren, Fangyun Wei, Samuel Albanie, Zheng Zhang, Han Hu

文章链接：https://arxiv.org/abs/2303.08817

项目代码：https://github.com/OliverRensu/DeepMIM

摘要：

深度监督涉及对神经网络中间特征的额外监督，在早期深度学习时代被广泛用于图像分类，因为它显着降低了训练难度并简化了优化，例如避免了普通训练中的梯度消失。然而，随着归一化技术和残差连接的出现，图像分类中的深度监督逐渐被淘汰。在本文中，我们重新审视了掩蔽图像建模 (MIM) 的深度监督，该模型通过掩蔽和预测方案预训练视觉转换器 (ViT)。通过实验，我们发现深度监督驱动浅层学习更有意义的表示，加速模型收敛，并扩大注意力多样性。我们的方法称为 DeepMIM，显着提高了每一层的表示能力。此外，DeepMIM 与一系列重建目标的许多 MIM 模型兼容。例如，使用 ViT-B，MAE 上的 DeepMIM 在 ImageNet 上达到 84.2 top-1 精度，比 MAE 高出 +0.6。通过将 DeepMIM 与更强大的标记器 CLIP 相结合，我们的模型在各种下游任务上实现了最先进的性能，包括图像分类（ImageNet-1K 上的 85.6 top-1 精度，优于 MAE-CLIP +0.8），对象检测（COCO 上的 APbox 为 52.8）和语义分割（ADE20K 上为 53.1 mIoU）。

3.A Theory of Emergent In-Context Learning as Implicit Structure Induction

标题：作为内隐结构归纳的紧急情境学习理论

作者：Michael Hahn, Navin Goyal

文章链接：https://arxiv.org/abs/2303.07971

摘要：

扩展大型语言模型 (LLM) 会产生从示例演示中进行上下文学习的能力。尽管取得了进展，但对这种现象的理论理解仍然有限。我们认为，上下文学习依赖于自然语言数据中发现的组合操作的重组。我们推导出一个信息论界限，显示在语言动机假设下，当预训练分布具有足够数量的组成结构时，上下文学习能力如何从通用的下一个标记预测中产生。第二个边界为促使 LLM 输出中间步骤以获得答案的经验成功提供了理论依据。为了验证理论预测，我们引入了一种受控设置来诱导情境学习；与以前的方法不同，它解释了语言的组合性质。训练有素的转换器可以以与理论结果一致的方式为一系列任务执行上下文学习。在微型设置中镜像真实世界的 LLM，在缩放参数和数据时出现上下文学习，并且在提示输出中间步骤时模型表现更好。探测表明，输入的组成结构的表示支持上下文学习。总而言之，这些结果为从理论上理解大型语言模型中的涌现行为迈出了一步。

每日学术速递3.21

Subjects: cs.CV

1.NeRFMeshing: Distilling Neural Radiance Fields into Geometrically-Accurate 3D Meshes

2.DeepMIM: Deep Supervision for Masked Image Modeling

3.A Theory of Emergent In-Context Learning as Implicit Structure Induction

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

每日学术速递3.21

Subjects: cs.CV

1.NeRFMeshing: Distilling Neural Radiance Fields into Geometrically-Accurate 3D Meshes

2.DeepMIM: Deep Supervision for Masked Image Modeling

3.A Theory of Emergent In-Context Learning as Implicit Structure Induction

热门文章

最新文章

相关课程

相关电子书

相关实验场景