每日学术速递3.21

简介: 随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.NeRFMeshing: Distilling Neural Radiance Fields into Geometrically-Accurate 3D Meshes

10c71ce2ee61742e645bdf27a00a6371.png


标题:NeRFMeshing:将神经辐射场提取为几何精确的 3D 网格

作者:Marie-Julie Rakotosaona, Fabian Manhardt, Diego Martin Arroyo, Michael Niemeyer, Abhijit Kundu, Federico Tombari

文章链接:https://arxiv.org/abs/2303.09431

fbc7cf9c559ed9462f3f4712273d46d4.png

aa671f446144ecd82344f5b11235102c.png

摘要:

       随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。从神经辐射场获得 3D 网格仍然是一个开放的挑战,因为 NeRFs 针对视图合成进行了优化,而不是在辐射场上强制执行准确的底层几何结构。因此,我们提出了一种新颖的紧凑且灵活的架构,可以通过任何 NeRF 驱动的方法轻松进行 3D 表面重建。训练完辐射场后,我们将体积 3D 表示提炼到带符号的表面近似网络中,从而可以轻松提取 3D 网格和外观。我们最终的 3D 网格在物理上是准确的,并且可以在一系列设备上实时渲染。

2.DeepMIM: Deep Supervision for Masked Image Modeling

e8f842157748335762edc20ff8bc09cc.png

标题:DeepMIM:蒙版图像建模的深度监督

作者:Sucheng Ren, Fangyun Wei, Samuel Albanie, Zheng Zhang, Han Hu

文章链接:https://arxiv.org/abs/2303.08817

项目代码:https://github.com/OliverRensu/DeepMIM

1a1e456ebd51a3cdc42a1e31f105526e.png

44816b03d941c7e54d9fbdf203789c2e.png

c2888004051b372d52989938aa9266c9.png


摘要:

       深度监督涉及对神经网络中间特征的额外监督,在早期深度学习时代被广泛用于图像分类,因为它显着降低了训练难度并简化了优化,例如避免了普通训练中的梯度消失。然而,随着归一化技术和残差连接的出现,图像分类中的深度监督逐渐被淘汰。在本文中,我们重新审视了掩蔽图像建模 (MIM) 的深度监督,该模型通过掩蔽和预测方案预训练视觉转换器 (ViT)。通过实验,我们发现深度监督驱动浅层学习更有意义的表示,加速模型收敛,并扩大注意力多样性。我们的方法称为 DeepMIM,显着提高了每一层的表示能力。此外,DeepMIM 与一系列重建目标的许多 MIM 模型兼容。例如,使用 ViT-B,MAE 上的 DeepMIM 在 ImageNet 上达到 84.2 top-1 精度,比 MAE 高出 +0.6。通过将 DeepMIM 与更强大的标记器 CLIP 相结合,我们的模型在各种下游任务上实现了最先进的性能,包括图像分类(ImageNet-1K 上的 85.6 top-1 精度,优于 MAE-CLIP +0.8),对象检测(COCO 上的 APbox 为 52.8)和语义分割(ADE20K 上为 53.1 mIoU)。

3.A Theory of Emergent In-Context Learning as Implicit Structure Induction

67671387c85207254d5caed9a197138e.png

标题:作为内隐结构归纳的紧急情境学习理论

作者:Michael Hahn, Navin Goyal

文章链接:https://arxiv.org/abs/2303.07971

81c4c99b0d111c09985aafd4f90ae184.png

547bed129fe234e579c6f662959b232b.png

摘要:

       扩展大型语言模型 (LLM) 会产生从示例演示中进行上下文学习的能力。尽管取得了进展,但对这种现象的理论理解仍然有限。我们认为,上下文学习依赖于自然语言数据中发现的组合操作的重组。我们推导出一个信息论界限,显示在语言动机假设下,当预训练分布具有足够数量的组成结构时,上下文学习能力如何从通用的下一个标记预测中产生。第二个边界为促使 LLM 输出中间步骤以获得答案的经验成功提供了理论依据。为了验证理论预测,我们引入了一种受控设置来诱导情境学习;与以前的方法不同,它解释了语言的组合性质。训练有素的转换器可以以与理论结果一致的方式为一系列任务执行上下文学习。在微型设置中镜像真实世界的 LLM,在缩放参数和数据时出现上下文学习,并且在提示输出中间步骤时模型表现更好。探测表明,输入的组成结构的表示支持上下文学习。总而言之,这些结果为从理论上理解大型语言模型中的涌现行为迈出了一步。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
126 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
190 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
105 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递2.16
半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成
143 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
116 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
115 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
119 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
112 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
107 0
|
自然语言处理 计算机视觉
每日学术速递3.6
本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。
108 0