每日学术速递4.29

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.LG


1.A Cookbook of Self-Supervised Learning

44872d75ed30468e0313c85cee4eca56.png

标题:自监督学习食谱

作者:Randall Balestriero, Mark Ibrahim, Vlad Sobal, Ari Morcos, Shashank Shekhar, Tom Goldstein, Florian Bordes, Adrien Bardes

文章链接:https://arxiv.org/abs/2304.12210

141f0f7b4df9a4e17ded3bf4236ea6b3.png

6f6ca8264f7297e62508e6312c6e5829.png

da2ae35719a5ad0fcd26ce17c3d47981.png

摘要:

       自我监督学习,被称为智能的暗物质,是推进机器学习的一条有前途的途径。然而,就像烹饪一样,训练 SSL 方法是一门精致的艺术,入门门槛很高。虽然许多组件都很熟悉,但成功训练 SSL 方法涉及从借口任务到训练超参数的一系列令人眼花缭乱的选择。我们的目标是通过以食谱的形式奠定基础和最新的 SSL 食谱来降低进入 SSL 研究的门槛。我们希望让好奇的研究人员能够在方法领域中导航,了解各种旋钮的作用,并获得探索 SSL 的美妙之处所需的专业知识。

2.Scaling Transformer to 1M tokens and beyond with RMT

b802a06bf98a3af3a41d92b8f4535f41.png


标题:使用 RMT 将 Transformer 扩展到 1M 代币甚至更多

作者:Aydar Bulatov, Yuri Kuratov, Mikhail S. Burtsev

文章链接:https://arxiv.org/abs/2304.11062

e532b71d1209a761f25184bd883f4cd1.png

a7f96585c76a9591e4ee844f323370e3.png

c703f12a8547122300c040620ee515ac.png

052bc5bbe5c34d0f8752011f6e2b0028.png

12162c30b3c34eb6037333f7b0d46a66.png

摘要:

       这份技术报告介绍了循环记忆在扩展 BERT 的上下文长度方面的应用,BERT 是自然语言处理中最有效的基于 Transformer 的模型之一。通过利用 Recurrent Memory Transformer 架构,我们成功地将模型的有效上下文长度增加到前所未有的 200 万个标记,同时保持了较高的记忆检索准确性。我们的方法允许存储和处理局部和全局信息,并通过使用递归使信息在输入序列的片段之间流动。我们的实验证明了我们方法的有效性,它在增强自然语言理解和生成任务中的长期依赖处理以及为内存密集型应用程序实现大规模上下文处理方面具有巨大潜力。

Subjects: cs.CV


3.Pointersect: Neural Rendering with Cloud-Ray Intersection(CVPR 2023)

5e7139637236fb0247f481e1a5e0acde.png

标题:Pointersect:使用云射线相交的神经渲染

作者:Jen-Hao Rick Chang, Wei-Yu Chen, Anurag Ranjan, Kwang Moo Yi, Oncel Tuzel

文章链接:https://arxiv.org/abs/2304.12390

项目代码:https://machinelearning.apple.com/research/pointersect

4613036187b82699da8f83b5dc74a703.png

05269be2c8a3b9b65b181890a5e1f74d.png

a642e3356601fc46f10cee258834075a.png

摘要:

       我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。具体来说,我们训练一组变换器,给定沿光线的少量局部相邻点,提供交点、表面法线和材料混合权重,用于渲染该光线的结果。将问题定位到小社区使我们能够训练一个只有 48 个网格的模型并将其应用于看不见的点云。我们的模型在三个测试集上实现了比最先进的表面重建和点云渲染方法更高的估计精度。当应用于房间规模的点云时,无需任何特定于场景的优化,该模型通过最先进的新颖视图渲染方法实现了具有竞争力的质量。此外,我们展示了渲染和操纵激光雷达扫描点云的能力,例如照明控制和对象插入。

目录
相关文章
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
136 0
每日学术速递3.20
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
127 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
113 0
每日学术速递3.9
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.1
本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。
124 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
98 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
104 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
62 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
106 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
161 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
89 0