每日学术速递5.12

简介: 用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.ImageBind: Holistic AI learning across six modalities

f458c251910fa801ae7d70e6c99bf7f5.png


标题:ImageBind:跨六种模式的整体人工智能学习

作者:Mengyuan Yan Jessica Lin Montserrat Gonzalez Arenas Ted Xiao Daniel Kappler Daniel Ho

文章链接:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

项目代码:https://github.com/facebookresearch/ImageBind

9d2c69dbf64fcbe89c5c10e984ac8315.png

de5d8fe428eed951a09f804aa33a1c42.png

948599744bf0a5c59f08fb6c23d604eb.png

27502b97a250f8aac914ae3e569c9c40.png

摘要:

       当人类从世界吸收信息时,我们天生会使用多种感官,例如看到繁忙的街道和听到汽车引擎的声音。今天,我们推出了一种方法,使机器更接近人类同时、整体和直接从许多不同形式的信息中学习的能力——不需要明确的监督(组织和标记原始数据的过程)。我们已经构建并正在开源 ImageBind,这是第一个能够绑定来自六种模式的信息的人工智能模型。该模型学习单个嵌入或共享表示空间,不仅适用于文本、图像/视频和音频,还适用于记录深度 (3D)、热(红外辐射)和惯性测量单元 (IMU) 的传感器,这计算运动和位置。ImageBind 使机器具备全面的理解力,将照片中的对象与它们的声音、3D 形状、它们的冷暖程度以及它们的移动方式联系起来。如我们的论文所述,ImageBind 可以胜过针对一种特定模态单独训练的先前专家模型。但最重要的是,它通过使机器能够更好地分析多种不同形式的信息来帮助推进人工智能。例如,使用 ImageBind,Meta 的 Make-A-Scene 可以从音频创建图像,例如根据雨林或熙熙攘攘的市场的声音创建图像。其他未来的可能性包括以更准确的方式识别、连接和调节内容,以及促进创意设计,例如更无缝地生成更丰富的媒体和创建更广泛的多模式搜索功能。ImageBind 是 Meta 致力于创建多模态 AI 系统的一部分,该系统可以从周围所有可能类型的数据中学习。随着模态数量的增加,ImageBind 为研究人员打开了尝试开发新的整体系统的闸门,例如结合 3D 和 IMU 传感器来设计或体验身临其境的虚拟世界。ImageBind 还可以提供一种探索记忆的丰富方式——使用文本、音频和图像的组合来搜索图片、视频、音频文件或文本消息。

2.HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion


c1ff6e475792db3f4ee23d949c2580d2.png

标题:HumanRF:运动中人体的高保真神经辐射场

作者:Mustafa Işık, Martin Rünz, Markos Georgopoulos, Taras Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nießner

文章链接:https://arxiv.org/abs/2305.06356

项目代码:https://synthesiaresearch.github.io/humanrf/

2c76dc56ebeb4c9e174f7c357ce4f539.png

d5bda4dfc40f72e0a5bacbfcb45ecb40.png

0c184ad0928b720d2723bae5dd429ad5.png

62d4cab0b874e9f9726e9cc1783134f4.png

摘要:

       以高保真度表现人类表现是电影制作、电脑游戏或视频会议等各种应用的重要组成部分。为了缩小与生产级质量的差距,我们引入了 HumanRF,这是一种 4D 动态神经场景表示,可从多视图视频输入中捕捉运动中的全身外观,并能够从新颖的、看不见的视点进行回放。我们的新颖表示充当动态视频编码,通过将时空分解为时间矩阵向量分解来以高压缩率捕获精细细节。这使我们能够为长序列获得人类演员的时间相干重建,同时即使在具有挑战性的运动的背景下也能呈现高分辨率细节。虽然大多数研究都集中在 4MP 或更低分辨率的合成上,但我们解决了在 12MP 下运行的挑战。为此,我们介绍了 ActorsHQ,这是一种新颖的多视图数据集,它提供来自 160 个摄像机的 12MP 镜头,用于 16 个序列,具有高保真度、每帧网格重建。我们展示了使用此类高分辨率数据所带来的挑战,并表明我们新推出的 HumanRF 有效地利用了这些数据,朝着生产级质量的新颖视图合成迈出了重要一步。

3.FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

90e65810216d05464913d7fc7e2d3202.png

标题:FrugalGPT:如何在降低成本和提高性能的同时使用大型语言模型

作者:Lingjiao Chen, Matei Zaharia, James Zou

文章链接:https://arxiv.org/abs/2305.05176

65a937d7c8a6857428f46d765e7e8bb7.png

f3911251f08fa0ca9b47574ec27cdf13.png

6918a4a6ac8c66d4109020c5f7ab2eec.png

摘要:

       用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。受此启发,我们概述并讨论了三种类型的策略,用户可以利用这些策略来降低与使用 LLM 相关的推理成本:1) 提示适应,2) LLM 近似,以及 3) LLM 级联。例如,我们提出了 FrugalGPT,这是一种简单而灵活的 LLM 级联实例,它学习将哪些 LLM 组合用于不同的查询,以降低成本并提高准确性。我们的实验表明,FrugalGPT 可以与最好的单个 LLM(例如 GPT-4)的性能相媲美,成本降低高达 98%,或者在成本相同的情况下比 GPT-4 的准确度提高 4%。这里提出的想法和发现为可持续和高效地使用 LLM 奠定了基础。

目录
相关文章
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
164 0
每日学术速递3.20
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
100 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
136 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.17
扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子
138 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
175 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
163 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
179 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
124 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.29
在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。
160 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
147 0
下一篇
DataWorks