CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.Prismer: A Vision-Language Model with An Ensemble of Experts
标题:Prismer:一个由专家组成的视觉语言模型
作者:Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar
文章链接:https://arxiv.org/abs/2303.02506
项目代码:https://github.com/NVlabs/prismer
摘要:
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。Prismer 只需要训练少量组件,大部分网络权重继承自现成的、预训练的领域专家,并在训练期间保持冻结状态。通过利用来自广泛领域的专家,我们表明 Prismer 可以有效地汇集这些专家知识并将其应用于各种视觉语言推理任务。在我们的实验中,我们表明 Prismer 实现了微调和少样本学习性能,这与当前最先进的模型具有竞争力,同时需要的训练数据减少了两个数量级。
Subjects: cs.AI
2.Foundation Models for Decision Making: Problems, Methods, and Opportunities
标题:决策制定的基础模型:问题、方法和机会
作者:Sherry Yang, Ofir Nachum, Yilun Du, Jason Wei, Pieter Abbeel, Dale Schuurmans
文章链接:https://arxiv.org/abs/2303.04129
项目代码:https://github.com/jiaojiayuasd/dilateformer
摘要:
在各种规模的数据上进行预训练的基础模型在广泛的视觉和语言任务中展示了非凡的能力。当此类模型部署在现实世界环境中时,它们不可避免地会与其他实体和代理交互。例如,语言模型通常用于通过对话与人类互动,视觉感知模型用于自主导航邻里街道。为了响应这些发展,正在出现新的范例来训练基础模型与其他代理交互并执行长期推理。这些范例利用了为多模式、多任务和多面手交互而策划的越来越大的数据集。研究基础模型和决策制定的交叉点对于创建强大的新系统具有巨大的希望,这些系统可以在对话、自动驾驶、医疗保健、教育和机器人技术等各种应用程序中有效交互。在这份手稿中,我们检查了决策基础模型的范围,并提供了概念工具和技术背景,以了解问题空间和探索新的研究方向。我们回顾了最近通过提示、条件生成建模、规划、最优控制和强化学习等多种方法在实际决策应用中建立基础模型的方法,并讨论了该领域的常见挑战和未解决的问题。
3.Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles
标题:零阶优化满足人类反馈:通过排名预言机证明学习
作者:Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang
文章链接:https://arxiv.org/abs/2303.03751
项目代码:https://github.com/TZW1998/Taming-Stable-Diffusion-with-Human-Ranking-Feedback
摘要:
我们在本文中,我们关注一个新的优化问题,其中目标函数是一个黑盒子,只能通过排名预言机进行评估。这个问题在现实世界的应用中很常见,特别是在功能由人类法官评估的情况下。人类反馈强化学习 (RLHF) 是此类应用的一个突出示例,最近的作品 采用它来提高人工指导下的大型语言模型 (LLM) 的质量。我们提出了 ZO-RankSGD,一种首创的零阶优化算法,以理论上的保证来解决这个优化问题。具体来说,我们的算法对下降方向采用了一种新的基于等级的随机估计器,并被证明可以收敛到一个固定点。ZO-RankSGD 也可以直接应用于强化学习中的策略搜索问题,当只有情节奖励的排名预言机可用时。这使得 ZO-RankSGD 成为现有 RLHF 方法的有前途的替代方法,因为它以在线方式进行优化,因此可以在没有任何预先收集的数据的情况下工作。此外,我们证明了 ZO-RankSGD 在一个新应用中的有效性:通过人类排名反馈提高扩散生成模型生成的图像质量。在整个实验过程中,我们发现 ZO-RankSGD 仅需几轮人工反馈即可显着增强生成图像的细节。总的来说,我们的工作通过解决仅使用排名反馈优化函数的问题,推进了零阶优化领域,并提供了一种在广泛领域中协调人类和机器意图的有效方法。