每日学术速递5.10

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV


1.ZipIt! Merging Models from Different Tasks without Training

981667b90b828dfea2449e56f5c61c57.png


标题:压缩它!无需训练即可合并来自不同任务的模型

作者:George Stoica, Daniel Bolya, Jakob Bjorner, Taylor Hearn, Judy Hoffman

文章链接:https://arxiv.org/abs/2305.03053

5d981134284463a43b14947578c825cc.png

6a01eb37a9471016a5320d5b88d03a69.png

aa766f7f1e4920bdfacf276ecea2cd47.png

3b0647182d4495868f7ba143a85bc436.png

b03704b75d7a9cbd22de4768a290274f.png

2148cb51da1d3c67a2178fceef61eac9.png


摘要:

       典型的深度视觉识别模型能够执行他们接受过训练的一项任务。在这篇论文中,我们解决了一个极其困难的问题,即在没有任何额外训练的情况下,将具有不同初始化的完全不同的模型组合成一个多任务模型,每个模型解决一个单独的任务。模型合并的先前工作将一个模型置换到另一个模型的空间,然后将它们加在一起。虽然这适用于在同一任务上训练的模型,但我们发现这无法解释在不相交任务上训练的模型的差异。因此,我们介绍了“ZipIt!”,这是一种合并两个具有相同架构的任意模型的通用方法,它包含两个简单的策略。首先,为了解决模型之间不共享的特征,我们扩展了模型合并问题,通过定义一个通用的“zip”操作,额外允许在每个模型中合并特征。其次,我们添加了对部分压缩模型直到指定层的支持,自然地创建了一个多头模型。我们发现这两个变化相结合,比之前的工作有了惊人的 20-60% 的改进,使得在不相交任务上训练的模型的合并变得可行。

2.Automatic Prompt Optimization with "Gradient Descent" and Beam Search(CVPR 2023)

2d4ce96293e95d6bd93eabea9049d7e6.png

标题:使用“梯度下降”和波束搜索进行自动提示优化

作者:Reid Pryzant, Dan Iter, Jerry Li, Yin Tat Lee, Chenguang Zhu, Michael Zeng

文章链接:https://arxiv.org/abs/2305.03495

e1a95abd2e40e4cceb48f47fee315f6c.png

bfda5faeea2a653637a784e18837550a.png

b9bfd818bea037e04f35c42b3bb7c4d5.png

a3f117a7b334b74c019b3493f1191521.png

摘要:

       大型语言模型 (LLM) 作为通用代理已显示出令人印象深刻的性能,但它们的能力仍然高度依赖于通过繁重的试错工作手写的提示。我们针对此问题提出了一个简单且非参数的解决方案,即自动提示优化 (APO),它受数值梯度下降的启发,可以自动改进提示,假设可以访问训练数据和 LLM API。该算法使用小批量数据来形成批评当前提示的自然语言“梯度”。然后通过在梯度的相反语义方向上编辑提示,将梯度“传播”到提示中。这些梯度下降步骤由波束搜索和强盗选择程序引导,可显着提高算法效率。三个基准 NLP 任务和 LLM 越狱检测的新问题的初步结果表明,自动提示优化可以胜过之前的提示编辑技术,并通过使用数据将模糊的任务描述重写为更精确,将初始提示的性能提高多达 31%注释说明。

3.Few-shot In-context Learning for Knowledge Base Question Answering (ACL 2023)

f3b45e8afa0ddb61723c3f9d00404488.png

标题:用于知识库问答的少样本上下文学习

作者:Tianle Li, Xueguang Ma, Alex Zhuang, Yu Gu, Yu Su, Wenhu Chen

文章链接:https://arxiv.org/abs/2305.01750

8cc59bdc618ed22e6ef9259a74309e14.png

303d1c2f8886413388039d1ab14efb3a.png

7aa3dd6ca38e048516f95117aecf6b8f.png

8615d559334cf6d98b421febc8daa08c.png

摘要:

       由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习。首先,KB-BINDER利用像Codex这样的大型语言模型,通过模仿一些演示,生成逻辑形式作为特定问题的草稿。其次,KB-BINDER以知识库为基础,将生成的草稿与BM25分数匹配的可执行草稿进行绑定。四个公共异构 KBQA 数据集的实验结果表明,KB-BINDER 仅需少量上下文演示即可实现强大的性能。尤其是在 GraphQA 和 3-hop MetaQA 上,KB-BINDER 甚至可以超越最先进的训练模型。在 GrailQA 和 WebQSP 上,我们的模型也与其他经过全面训练的模型不相上下。我们相信 KB-BINDER 可以作为未来研究的重要基线。我们的代码可在此 https URL 上获得。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
150 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
99 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
122 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
128 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.3
用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。
206 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
133 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
124 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
141 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
158 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递4.6
大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一
150 0
下一篇
DataWorks