每日学术速递3.21

简介: 随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.NeRFMeshing: Distilling Neural Radiance Fields into Geometrically-Accurate 3D Meshes

10c71ce2ee61742e645bdf27a00a6371.png


标题:NeRFMeshing:将神经辐射场提取为几何精确的 3D 网格

作者:Marie-Julie Rakotosaona, Fabian Manhardt, Diego Martin Arroyo, Michael Niemeyer, Abhijit Kundu, Federico Tombari

文章链接:https://arxiv.org/abs/2303.09431

fbc7cf9c559ed9462f3f4712273d46d4.png

aa671f446144ecd82344f5b11235102c.png

摘要:

       随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。从神经辐射场获得 3D 网格仍然是一个开放的挑战,因为 NeRFs 针对视图合成进行了优化,而不是在辐射场上强制执行准确的底层几何结构。因此,我们提出了一种新颖的紧凑且灵活的架构,可以通过任何 NeRF 驱动的方法轻松进行 3D 表面重建。训练完辐射场后,我们将体积 3D 表示提炼到带符号的表面近似网络中,从而可以轻松提取 3D 网格和外观。我们最终的 3D 网格在物理上是准确的,并且可以在一系列设备上实时渲染。

2.DeepMIM: Deep Supervision for Masked Image Modeling

e8f842157748335762edc20ff8bc09cc.png

标题:DeepMIM:蒙版图像建模的深度监督

作者:Sucheng Ren, Fangyun Wei, Samuel Albanie, Zheng Zhang, Han Hu

文章链接:https://arxiv.org/abs/2303.08817

项目代码:https://github.com/OliverRensu/DeepMIM

1a1e456ebd51a3cdc42a1e31f105526e.png

44816b03d941c7e54d9fbdf203789c2e.png

c2888004051b372d52989938aa9266c9.png


摘要:

       深度监督涉及对神经网络中间特征的额外监督,在早期深度学习时代被广泛用于图像分类,因为它显着降低了训练难度并简化了优化,例如避免了普通训练中的梯度消失。然而,随着归一化技术和残差连接的出现,图像分类中的深度监督逐渐被淘汰。在本文中,我们重新审视了掩蔽图像建模 (MIM) 的深度监督,该模型通过掩蔽和预测方案预训练视觉转换器 (ViT)。通过实验,我们发现深度监督驱动浅层学习更有意义的表示,加速模型收敛,并扩大注意力多样性。我们的方法称为 DeepMIM,显着提高了每一层的表示能力。此外,DeepMIM 与一系列重建目标的许多 MIM 模型兼容。例如,使用 ViT-B,MAE 上的 DeepMIM 在 ImageNet 上达到 84.2 top-1 精度,比 MAE 高出 +0.6。通过将 DeepMIM 与更强大的标记器 CLIP 相结合,我们的模型在各种下游任务上实现了最先进的性能,包括图像分类(ImageNet-1K 上的 85.6 top-1 精度,优于 MAE-CLIP +0.8),对象检测(COCO 上的 APbox 为 52.8)和语义分割(ADE20K 上为 53.1 mIoU)。

3.A Theory of Emergent In-Context Learning as Implicit Structure Induction

67671387c85207254d5caed9a197138e.png

标题:作为内隐结构归纳的紧急情境学习理论

作者:Michael Hahn, Navin Goyal

文章链接:https://arxiv.org/abs/2303.07971

81c4c99b0d111c09985aafd4f90ae184.png

547bed129fe234e579c6f662959b232b.png

摘要:

       扩展大型语言模型 (LLM) 会产生从示例演示中进行上下文学习的能力。尽管取得了进展,但对这种现象的理论理解仍然有限。我们认为,上下文学习依赖于自然语言数据中发现的组合操作的重组。我们推导出一个信息论界限,显示在语言动机假设下,当预训练分布具有足够数量的组成结构时,上下文学习能力如何从通用的下一个标记预测中产生。第二个边界为促使 LLM 输出中间步骤以获得答案的经验成功提供了理论依据。为了验证理论预测,我们引入了一种受控设置来诱导情境学习;与以前的方法不同,它解释了语言的组合性质。训练有素的转换器可以以与理论结果一致的方式为一系列任务执行上下文学习。在微型设置中镜像真实世界的 LLM,在缩放参数和数据时出现上下文学习,并且在提示输出中间步骤时模型表现更好。探测表明,输入的组成结构的表示支持上下文学习。总而言之,这些结果为从理论上理解大型语言模型中的涌现行为迈出了一步。

目录
相关文章
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
103 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
165 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
142 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
122 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
109 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
121 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
118 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
131 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
135 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递2.28
最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。
92 0

热门文章

最新文章