每日学术速递3.9

简介: 最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Prismer: A Vision-Language Model with An Ensemble of Experts

e7922f2985046cb7c6d85a555b3a96cc.png

标题:Prismer:一个由专家组成的视觉语言模型

作者:Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar

文章链接:https://arxiv.org/abs/2303.02506

项目代码:https://github.com/NVlabs/prismer

b58d56bbdf231ad9dd16e9dcde603840.png

f13ff04f8e801fb432af73a4ed76f361.png

ea8bda1daec3222fce44db9695d41fca.png

bc24d15961d65a17200e0aff1129fcfd.png

摘要:

       最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。Prismer 只需要训练少量组件,大部分网络权重继承自现成的、预训练的领域专家,并在训练期间保持冻结状态。通过利用来自广泛领域的专家,我们表明 Prismer 可以有效地汇集这些专家知识并将其应用于各种视觉语言推理任务。在我们的实验中,我们表明 Prismer 实现了微调和少样本学习性能,这与当前最先进的模型具有竞争力,同时需要的训练数据减少了两个数量级。

Subjects: cs.AI


2.Foundation Models for Decision Making: Problems, Methods, and Opportunities

921606e592af740cef31010255a2e7c7.png


标题:决策制定的基础模型:问题、方法和机会

作者:Sherry Yang, Ofir Nachum, Yilun Du, Jason Wei, Pieter Abbeel, Dale Schuurmans

文章链接:https://arxiv.org/abs/2303.04129

项目代码:https://github.com/jiaojiayuasd/dilateformer

0ffb6f62373237bb308de290bc8a661c.png

fdccaed929fc4be374a9131d1a099067.png

ccfbffd18825245f70a22c383d03017a.png

摘要:

       在各种规模的数据上进行预训练的基础模型在广泛的视觉和语言任务中展示了非凡的能力。当此类模型部署在现实世界环境中时,它们不可避免地会与其他实体和代理交互。例如,语言模型通常用于通过对话与人类互动,视觉感知模型用于自主导航邻里街道。为了响应这些发展,正在出现新的范例来训练基础模型与其他代理交互并执行长期推理。这些范例利用了为多模式、多任务和多面手交互而策划的越来越大的数据集。研究基础模型和决策制定的交叉点对于创建强大的新系统具有巨大的希望,这些系统可以在对话、自动驾驶、医疗保健、教育和机器人技术等各种应用程序中有效交互。在这份手稿中,我们检查了决策基础模型的范围,并提供了概念工具和技术背景,以了解问题空间和探索新的研究方向。我们回顾了最近通过提示、条件生成建模、规划、最优控制和强化学习等多种方法在实际决策应用中建立基础模型的方法,并讨论了该领域的常见挑战和未解决的问题。

3.Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles

2c2ec9a8a918a318299f92df2ab1dd25.png

标题:零阶优化满足人类反馈:通过排名预言机证明学习

作者:Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang

文章链接:https://arxiv.org/abs/2303.03751

项目代码:https://github.com/TZW1998/Taming-Stable-Diffusion-with-Human-Ranking-Feedback

4c4169c2d357a96117162450a2e57a13.png

2c52d667a75d635d7d750426c4a5c1df.png

dc9e5dc96fefe3d9af57d97d68f8357f.png

6bc048bf54917bbf5a3eb741d4a7dc56.png


摘要:

       我们在本文中,我们关注一个新的优化问题,其中目标函数是一个黑盒子,只能通过排名预言机进行评估。这个问题在现实世界的应用中很常见,特别是在功能由人类法官评估的情况下。人类反馈强化学习 (RLHF) 是此类应用的一个突出示例,最近的作品 采用它来提高人工指导下的大型语言模型 (LLM) 的质量。我们提出了 ZO-RankSGD,一种首创的零阶优化算法,以理论上的保证来解决这个优化问题。具体来说,我们的算法对下降方向采用了一种新的基于等级的随机估计器,并被证明可以收敛到一个固定点。ZO-RankSGD 也可以直接应用于强化学习中的策略搜索问题,当只有情节奖励的排名预言机可用时。这使得 ZO-RankSGD 成为现有 RLHF 方法的有前途的替代方法,因为它以在线方式进行优化,因此可以在没有任何预先收集的数据的情况下工作。此外,我们证明了 ZO-RankSGD 在一个新应用中的有效性:通过人类排名反馈提高扩散生成模型生成的图像质量。在整个实验过程中,我们发现 ZO-RankSGD 仅需几轮人工反馈即可显着增强生成图像的细节。总的来说,我们的工作通过解决仅使用排名反馈优化函数的问题,推进了零阶优化领域,并提供了一种在广泛领域中协调人类和机器意图的有效方法。

目录
相关文章
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
98 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
122 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
87 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
160 0
|
机器学习/深度学习 自然语言处理 数据挖掘
每日学术速递3.2
基于点击的交互式分割(IS)旨在提取用户交互下的目标对象。对于这项任务,当前大多数基于深度学习 (DL) 的方法主要遵循语义分割的一般流程。尽管取得了令人鼓舞的性能,但它们并没有完全明确地利用和传播点击信息,不可避免地导致不令人满意的分割结果,即使在点击点也是如此。
122 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
178 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
140 0
|
自然语言处理 计算机视觉
每日学术速递3.6
本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。
129 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
151 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
134 0

热门文章

最新文章