每日学术速递4.21

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Pretrained Language Models as Visual Planners for Human Assistance


f290ff862c182e8275d769001a8d0aa8.png


标题:预训练语言模型作为人工协助的视觉规划器

作者:Dhruvesh Patel, Hamid Eghbalzadeh, Nitin Kamra, Michael Louis Iuzzolino, Unnat Jain, Ruta Desai

文章链接:https://arxiv.org/abs/2304.09302

266c2156f4a137dc490239acc8a73d14.png

1add229e9666d5303e4e864edf738ef8.png

fa0d19711ca0e5c25575e49a53a9aaa9.png

5352a3794bdfef63a720cd190684be24.png

ebdf94ee70ce71a7b7e3714daa90988e.png

摘要:

       为了在可以指导用户实现复杂的多步目标的多模式人工智能助手方面取得进展,我们提出了视觉规划辅助(VPA)任务。给定一个用自然语言简要描述的目标,例如“制作一个架子”,以及到目前为止用户进度的视频,VPA 的目的是获得一个计划,即一系列动作,例如“沙架”, “油漆架”等,达到目的。这需要评估用户未修剪视频的进度,并将其与基本目标的要求相关联,即动作的相关性和它们之间的排序依赖性。因此,这需要处理很长的视频历史记录和任意复杂的动作依赖性。为了应对这些挑战,我们将 VPA 分解为视频动作分割和预测。我们将预测步骤制定为多模态序列建模问题,并提出基于视觉语言模型的规划器 (VLaMP),它利用预训练的 LM 作为序列模型。我们证明 VLaMP 的性能明显优于基线 w.r.t 所有评估生成计划的指标。此外,通过广泛的消融,我们还分离了语言预训练、视觉观察和目标信息对性能的价值。我们将发布我们的数据、模型和代码,以支持未来对视觉规划的研究以提供帮助。

2.NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models(CVPR 2023)

5c4cef066bb1586499eb1ba1e5b85b96.png

标题:NeuralField-LDM:使用分层潜在扩散模型生成场景

作者:Seung Wook Kim, Bradley Brown, Kangxue Yin, Karsten Kreis, Katja Schwarz, Daiqing Li, Robin Rombach, Antonio Torralba, Sanja Fidler

文章链接:https://arxiv.org/abs/2304.09787

项目代码:https://research.nvidia.com/labs/toronto-ai/NFLDM/

e1ae15f51c661b5c1d60ff3022767f28.png

a728d83eac4992b666bcc94e8e3b589b.png

52baf2b08cabfe06b5cfd1436808f8c0.png

98b76ab184c1b3b7763c3fcfcec4a34d.png

摘要:

       自动生成高质量的真实世界 3D 场景对于虚拟现实和机器人模拟等应用具有极大的吸引力。为实现这一目标,我们引入了 NeuralField-LDM,这是一种能够合成复杂 3D 环境的生成模型。我们利用已成功用于高效高质量 2D 内容创建的潜在扩散模型。我们首先训练场景自动编码器将一组图像和姿势对表示为神经场,表示为密度和特征体素网格,可以投影这些网格以产生场景的新视图。为了进一步压缩这种表示,我们训练了一个潜在的自动编码器,它将体素网格映射到一组潜在的表示。然后将层次扩散模型拟合到潜在以完成场景生成管道。我们实现了对现有最先进场景生成模型的实质性改进。此外,我们还展示了 NeuralField-LDM 如何用于各种 3D 内容创建应用程序,包括条件场景生成、场景修复和场景样式操作。

3.Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models

8b84c12d2e63fe8e2c37209e1e6d594b.png

标题:Chameleon:使用大型语言模型进行即插即用的组合推理

作者:Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Jianfeng Gao

文章链接:https://arxiv.org/abs/2304.05977

项目代码:https://chameleon-llm.github.io/

29c52bec2f647390c4d4699da9511482.png

7dc14da19db739082cc43cd21226f675.png

80462b32c4f339cd95ae1de18139db7c.png

61ca99faaef1177f35c661c53d03d472.png

434a9324d46740d5365974a64431196a.png

摘要:

       大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。Chameleon 综合程序以组成各种工具,包括 LLM 模型、现成的视觉模型、网络搜索引擎、Python 函数和根据用户兴趣定制的基于规则的模块。Chameleon 建立在 LLM 之上作为自然语言规划器,推断出适当的工具序列来组合和执行以生成最终响应。我们展示了 Chameleon 在两个任务上的适应性和有效性:ScienceQA 和 TabMWP。值得注意的是,带有 GPT-4 的 Chameleon 在 ScienceQA 上达到了 86.54% 的准确率,比已发表的最好的 few-shot 模型显着提高了 11.37%;使用 GPT-4 作为底层 LLM,Chameleon 比最先进的模型提高了 17.8%,从而在 TabMWP 上实现了 98.78% 的整体准确率。进一步的研究表明,与 ChatGPT 等其他 LLM 相比,使用 GPT-4 作为规划器表现出更加一致和合理的工具选择,并且能够根据指令推断出潜在的约束。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
150 0
每日学术速递4.3
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
115 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
158 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
86 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递4.6
大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一
150 0
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
100 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
160 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
136 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
148 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.29
在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。
160 0

热门文章

最新文章