每日学术速递4.21

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Pretrained Language Models as Visual Planners for Human Assistance


f290ff862c182e8275d769001a8d0aa8.png


标题:预训练语言模型作为人工协助的视觉规划器

作者:Dhruvesh Patel, Hamid Eghbalzadeh, Nitin Kamra, Michael Louis Iuzzolino, Unnat Jain, Ruta Desai

文章链接:https://arxiv.org/abs/2304.09302

266c2156f4a137dc490239acc8a73d14.png

1add229e9666d5303e4e864edf738ef8.png

fa0d19711ca0e5c25575e49a53a9aaa9.png

5352a3794bdfef63a720cd190684be24.png

ebdf94ee70ce71a7b7e3714daa90988e.png

摘要:

       为了在可以指导用户实现复杂的多步目标的多模式人工智能助手方面取得进展,我们提出了视觉规划辅助(VPA)任务。给定一个用自然语言简要描述的目标,例如“制作一个架子”,以及到目前为止用户进度的视频,VPA 的目的是获得一个计划,即一系列动作,例如“沙架”, “油漆架”等,达到目的。这需要评估用户未修剪视频的进度,并将其与基本目标的要求相关联,即动作的相关性和它们之间的排序依赖性。因此,这需要处理很长的视频历史记录和任意复杂的动作依赖性。为了应对这些挑战,我们将 VPA 分解为视频动作分割和预测。我们将预测步骤制定为多模态序列建模问题,并提出基于视觉语言模型的规划器 (VLaMP),它利用预训练的 LM 作为序列模型。我们证明 VLaMP 的性能明显优于基线 w.r.t 所有评估生成计划的指标。此外,通过广泛的消融,我们还分离了语言预训练、视觉观察和目标信息对性能的价值。我们将发布我们的数据、模型和代码,以支持未来对视觉规划的研究以提供帮助。

2.NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models(CVPR 2023)

5c4cef066bb1586499eb1ba1e5b85b96.png

标题:NeuralField-LDM:使用分层潜在扩散模型生成场景

作者:Seung Wook Kim, Bradley Brown, Kangxue Yin, Karsten Kreis, Katja Schwarz, Daiqing Li, Robin Rombach, Antonio Torralba, Sanja Fidler

文章链接:https://arxiv.org/abs/2304.09787

项目代码:https://research.nvidia.com/labs/toronto-ai/NFLDM/

e1ae15f51c661b5c1d60ff3022767f28.png

a728d83eac4992b666bcc94e8e3b589b.png

52baf2b08cabfe06b5cfd1436808f8c0.png

98b76ab184c1b3b7763c3fcfcec4a34d.png

摘要:

       自动生成高质量的真实世界 3D 场景对于虚拟现实和机器人模拟等应用具有极大的吸引力。为实现这一目标,我们引入了 NeuralField-LDM,这是一种能够合成复杂 3D 环境的生成模型。我们利用已成功用于高效高质量 2D 内容创建的潜在扩散模型。我们首先训练场景自动编码器将一组图像和姿势对表示为神经场,表示为密度和特征体素网格,可以投影这些网格以产生场景的新视图。为了进一步压缩这种表示,我们训练了一个潜在的自动编码器,它将体素网格映射到一组潜在的表示。然后将层次扩散模型拟合到潜在以完成场景生成管道。我们实现了对现有最先进场景生成模型的实质性改进。此外,我们还展示了 NeuralField-LDM 如何用于各种 3D 内容创建应用程序,包括条件场景生成、场景修复和场景样式操作。

3.Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models

8b84c12d2e63fe8e2c37209e1e6d594b.png

标题:Chameleon:使用大型语言模型进行即插即用的组合推理

作者:Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Jianfeng Gao

文章链接:https://arxiv.org/abs/2304.05977

项目代码:https://chameleon-llm.github.io/

29c52bec2f647390c4d4699da9511482.png

7dc14da19db739082cc43cd21226f675.png

80462b32c4f339cd95ae1de18139db7c.png

61ca99faaef1177f35c661c53d03d472.png

434a9324d46740d5365974a64431196a.png

摘要:

       大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。Chameleon 综合程序以组成各种工具,包括 LLM 模型、现成的视觉模型、网络搜索引擎、Python 函数和根据用户兴趣定制的基于规则的模块。Chameleon 建立在 LLM 之上作为自然语言规划器,推断出适当的工具序列来组合和执行以生成最终响应。我们展示了 Chameleon 在两个任务上的适应性和有效性:ScienceQA 和 TabMWP。值得注意的是,带有 GPT-4 的 Chameleon 在 ScienceQA 上达到了 86.54% 的准确率,比已发表的最好的 few-shot 模型显着提高了 11.37%;使用 GPT-4 作为底层 LLM,Chameleon 比最先进的模型提高了 17.8%,从而在 TabMWP 上实现了 98.78% 的整体准确率。进一步的研究表明,与 ChatGPT 等其他 LLM 相比,使用 GPT-4 作为规划器表现出更加一致和合理的工具选择,并且能够根据指令推断出潜在的约束。

目录
相关文章
|
存储 运维 监控
API明细日志及运维统计日志全面提升API可运维性
在数字化转型的大潮中,数据已成为企业最宝贵的资产之一。而数据服务API可快速为数据应用提供数据接口。面对越来越多的API以及越来越多的应用调用,如何快速查看API的服务情况、异常情况及影响范围,以及查看API的调用详情,进行API的性能优化、错误排查变得越来越重要,本文将介绍如何配置和开通API运维统计及明细日志,以及如何查看日志进行介绍。
604 0
|
11月前
|
安全 算法 网络安全
HTTP和HTTPS的区别
本文介绍HTTP与HTTPS的区别、HTTPS链接建立过程及常见加密算法。HTTP为明文传输,易被窃听;HTTPS通过SSL/TLS协议加密,确保数据安全。HTTPS使用端口443,提供认证机制。文中还详细讲解了对称加密(如AES、DES)和非对称加密(如RSA、ECC)算法的特点及应用场景。
|
11月前
|
分布式计算 DataWorks 搜索推荐
聊聊DataWorks这个大数据开发治理平台
聊聊DataWorks这个大数据开发治理平台
317 2
|
数据库 Python
【译】Celery文档3:在Django中使用Celery
【译】Celery文档3:在Django中使用Celery
225 0
|
移动开发 小程序 物联网
智能车位引导系统:智能导航,便捷停车
摘要(Markdown格式): 智慧停车场结合室内定位导航技术,提升停车效率及用户体验。设计包括移动端H5导航小程序、大屏端智能联动,以及基于GIS的物联网管理。系统提供空余车位引导、车位预约、多样化寻车及AR导航等功能,支持与不同停车场系统对接,确保可扩展性。通过优化的离场引导,减少车主寻找出口的时间,整体提升了大型公共场所的客流管理和信息化水平。
877 0
智能车位引导系统:智能导航,便捷停车
|
JavaScript 前端开发
three.js 官方给的压缩包如何使用?three.js基础官方文件使用方法
three.js 官方给的压缩包如何使用?three.js基础官方文件使用方法
417 0
|
Oracle Java 关系型数据库
JAVAweb 的Eclipse配置及需要安装的jdk及tomcat 完整详细 搭配图片,详细易懂
JAVAweb 的Eclipse配置及需要安装的jdk及tomcat 完整详细 搭配图片,详细易懂
328 0
|
SQL 存储 Java
【SQL】一文详解嵌入式SQL(建议收藏)
嵌入式SQL(Embedded SQL) 是应用系统使用编程方式来访问和管理数据库中数据的主要方式之一
653 0
【SQL】一文详解嵌入式SQL(建议收藏)
|
测试技术
Stanford斯坦福扫描3D模型下载方式及链接
Stanford斯坦福扫描3D模型下载方式及链接
438 0