每日学术速递3.9

简介: 最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Prismer: A Vision-Language Model with An Ensemble of Experts

e7922f2985046cb7c6d85a555b3a96cc.png

标题:Prismer:一个由专家组成的视觉语言模型

作者:Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar

文章链接:https://arxiv.org/abs/2303.02506

项目代码:https://github.com/NVlabs/prismer

b58d56bbdf231ad9dd16e9dcde603840.png

f13ff04f8e801fb432af73a4ed76f361.png

ea8bda1daec3222fce44db9695d41fca.png

bc24d15961d65a17200e0aff1129fcfd.png

摘要:

       最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。Prismer 只需要训练少量组件,大部分网络权重继承自现成的、预训练的领域专家,并在训练期间保持冻结状态。通过利用来自广泛领域的专家,我们表明 Prismer 可以有效地汇集这些专家知识并将其应用于各种视觉语言推理任务。在我们的实验中,我们表明 Prismer 实现了微调和少样本学习性能,这与当前最先进的模型具有竞争力,同时需要的训练数据减少了两个数量级。

Subjects: cs.AI


2.Foundation Models for Decision Making: Problems, Methods, and Opportunities

921606e592af740cef31010255a2e7c7.png


标题:决策制定的基础模型:问题、方法和机会

作者:Sherry Yang, Ofir Nachum, Yilun Du, Jason Wei, Pieter Abbeel, Dale Schuurmans

文章链接:https://arxiv.org/abs/2303.04129

项目代码:https://github.com/jiaojiayuasd/dilateformer

0ffb6f62373237bb308de290bc8a661c.png

fdccaed929fc4be374a9131d1a099067.png

ccfbffd18825245f70a22c383d03017a.png

摘要:

       在各种规模的数据上进行预训练的基础模型在广泛的视觉和语言任务中展示了非凡的能力。当此类模型部署在现实世界环境中时,它们不可避免地会与其他实体和代理交互。例如,语言模型通常用于通过对话与人类互动,视觉感知模型用于自主导航邻里街道。为了响应这些发展,正在出现新的范例来训练基础模型与其他代理交互并执行长期推理。这些范例利用了为多模式、多任务和多面手交互而策划的越来越大的数据集。研究基础模型和决策制定的交叉点对于创建强大的新系统具有巨大的希望,这些系统可以在对话、自动驾驶、医疗保健、教育和机器人技术等各种应用程序中有效交互。在这份手稿中,我们检查了决策基础模型的范围,并提供了概念工具和技术背景,以了解问题空间和探索新的研究方向。我们回顾了最近通过提示、条件生成建模、规划、最优控制和强化学习等多种方法在实际决策应用中建立基础模型的方法,并讨论了该领域的常见挑战和未解决的问题。

3.Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles

2c2ec9a8a918a318299f92df2ab1dd25.png

标题:零阶优化满足人类反馈:通过排名预言机证明学习

作者:Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang

文章链接:https://arxiv.org/abs/2303.03751

项目代码:https://github.com/TZW1998/Taming-Stable-Diffusion-with-Human-Ranking-Feedback

4c4169c2d357a96117162450a2e57a13.png

2c52d667a75d635d7d750426c4a5c1df.png

dc9e5dc96fefe3d9af57d97d68f8357f.png

6bc048bf54917bbf5a3eb741d4a7dc56.png


摘要:

       我们在本文中,我们关注一个新的优化问题,其中目标函数是一个黑盒子,只能通过排名预言机进行评估。这个问题在现实世界的应用中很常见,特别是在功能由人类法官评估的情况下。人类反馈强化学习 (RLHF) 是此类应用的一个突出示例,最近的作品 采用它来提高人工指导下的大型语言模型 (LLM) 的质量。我们提出了 ZO-RankSGD,一种首创的零阶优化算法,以理论上的保证来解决这个优化问题。具体来说,我们的算法对下降方向采用了一种新的基于等级的随机估计器,并被证明可以收敛到一个固定点。ZO-RankSGD 也可以直接应用于强化学习中的策略搜索问题,当只有情节奖励的排名预言机可用时。这使得 ZO-RankSGD 成为现有 RLHF 方法的有前途的替代方法,因为它以在线方式进行优化,因此可以在没有任何预先收集的数据的情况下工作。此外,我们证明了 ZO-RankSGD 在一个新应用中的有效性:通过人类排名反馈提高扩散生成模型生成的图像质量。在整个实验过程中,我们发现 ZO-RankSGD 仅需几轮人工反馈即可显着增强生成图像的细节。总的来说,我们的工作通过解决仅使用排名反馈优化函数的问题,推进了零阶优化领域,并提供了一种在广泛领域中协调人类和机器意图的有效方法。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
108 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
149 0
每日学术速递3.20
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
127 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
164 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
101 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
116 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
166 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
147 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
108 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
125 0