每日学术速递3.21

简介: 随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.NeRFMeshing: Distilling Neural Radiance Fields into Geometrically-Accurate 3D Meshes

10c71ce2ee61742e645bdf27a00a6371.png


标题:NeRFMeshing:将神经辐射场提取为几何精确的 3D 网格

作者:Marie-Julie Rakotosaona, Fabian Manhardt, Diego Martin Arroyo, Michael Niemeyer, Abhijit Kundu, Federico Tombari

文章链接:https://arxiv.org/abs/2303.09431

fbc7cf9c559ed9462f3f4712273d46d4.png

aa671f446144ecd82344f5b11235102c.png

摘要:

       随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。从神经辐射场获得 3D 网格仍然是一个开放的挑战,因为 NeRFs 针对视图合成进行了优化,而不是在辐射场上强制执行准确的底层几何结构。因此,我们提出了一种新颖的紧凑且灵活的架构,可以通过任何 NeRF 驱动的方法轻松进行 3D 表面重建。训练完辐射场后,我们将体积 3D 表示提炼到带符号的表面近似网络中,从而可以轻松提取 3D 网格和外观。我们最终的 3D 网格在物理上是准确的,并且可以在一系列设备上实时渲染。

2.DeepMIM: Deep Supervision for Masked Image Modeling

e8f842157748335762edc20ff8bc09cc.png

标题:DeepMIM:蒙版图像建模的深度监督

作者:Sucheng Ren, Fangyun Wei, Samuel Albanie, Zheng Zhang, Han Hu

文章链接:https://arxiv.org/abs/2303.08817

项目代码:https://github.com/OliverRensu/DeepMIM

1a1e456ebd51a3cdc42a1e31f105526e.png

44816b03d941c7e54d9fbdf203789c2e.png

c2888004051b372d52989938aa9266c9.png


摘要:

       深度监督涉及对神经网络中间特征的额外监督,在早期深度学习时代被广泛用于图像分类,因为它显着降低了训练难度并简化了优化,例如避免了普通训练中的梯度消失。然而,随着归一化技术和残差连接的出现,图像分类中的深度监督逐渐被淘汰。在本文中,我们重新审视了掩蔽图像建模 (MIM) 的深度监督,该模型通过掩蔽和预测方案预训练视觉转换器 (ViT)。通过实验,我们发现深度监督驱动浅层学习更有意义的表示,加速模型收敛,并扩大注意力多样性。我们的方法称为 DeepMIM,显着提高了每一层的表示能力。此外,DeepMIM 与一系列重建目标的许多 MIM 模型兼容。例如,使用 ViT-B,MAE 上的 DeepMIM 在 ImageNet 上达到 84.2 top-1 精度,比 MAE 高出 +0.6。通过将 DeepMIM 与更强大的标记器 CLIP 相结合,我们的模型在各种下游任务上实现了最先进的性能,包括图像分类(ImageNet-1K 上的 85.6 top-1 精度,优于 MAE-CLIP +0.8),对象检测(COCO 上的 APbox 为 52.8)和语义分割(ADE20K 上为 53.1 mIoU)。

3.A Theory of Emergent In-Context Learning as Implicit Structure Induction

67671387c85207254d5caed9a197138e.png

标题:作为内隐结构归纳的紧急情境学习理论

作者:Michael Hahn, Navin Goyal

文章链接:https://arxiv.org/abs/2303.07971

81c4c99b0d111c09985aafd4f90ae184.png

547bed129fe234e579c6f662959b232b.png

摘要:

       扩展大型语言模型 (LLM) 会产生从示例演示中进行上下文学习的能力。尽管取得了进展,但对这种现象的理论理解仍然有限。我们认为,上下文学习依赖于自然语言数据中发现的组合操作的重组。我们推导出一个信息论界限,显示在语言动机假设下,当预训练分布具有足够数量的组成结构时,上下文学习能力如何从通用的下一个标记预测中产生。第二个边界为促使 LLM 输出中间步骤以获得答案的经验成功提供了理论依据。为了验证理论预测,我们引入了一种受控设置来诱导情境学习;与以前的方法不同,它解释了语言的组合性质。训练有素的转换器可以以与理论结果一致的方式为一系列任务执行上下文学习。在微型设置中镜像真实世界的 LLM,在缩放参数和数据时出现上下文学习,并且在提示输出中间步骤时模型表现更好。探测表明,输入的组成结构的表示支持上下文学习。总而言之,这些结果为从理论上理解大型语言模型中的涌现行为迈出了一步。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
132 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
164 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
177 0
每日学术速递3.9
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
241 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递2.28
最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。
94 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
183 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
143 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
129 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
149 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
272 0