每日学术速递3.31

简介: 我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

53ff61d7ab4235e2a6fb1f99d76e9333.png

标题:LLaMA-Adapter:具有零初始注意力的语言模型的高效微调

作者:Yutao Cui, Cheng Jiang, Gangshan Wu, LiMin Wang

文章链接:https://arxiv.org/abs/2303.16199

项目代码:https://github.com/ZrrSkywalker/LLaMA-Adapter

0491ba265e72f2f6faa59fbbfd08d3c6.png

9a5958a6cb117b3152bc167573e5c345.png

dd35cc4e245cddf70084beaae72c4945.png

7c1a1f786d3a1a5f66f4107bee076865.png

摘要:

       我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。具体来说,我们采用了一组可学习的自适应提示,并将它们添加到更高转换器层的输入文本标记中。然后,提出了一种具有零门控的零初始注意机制,该机制自适应地将新的教学线索注入 LLaMA,同时有效地保留其预训练知识。通过高效的训练,LLaMA-Adapter 生成高质量的响应,与具有完全微调的 7B 参数的羊驼相媲美。此外,我们的方法可以简单地扩展到多模态输入,例如图像,用于图像条件 LLaMA,从而在 ScienceQA 上实现卓越的推理能力。我们在这个 https URL 上发布我们的代码。

2.HOLODIFFUSION: Training a 3D Diffusion Model using 2D Images

20e30df285cedc6d38e417ecfa36e6a8.png

标题:HOLODIFFUSION:使用 2D 图像训练 3D 扩散模型

作者:Animesh Karnewar, Andrea Vedaldi, David Novotny, Niloy Mitra

文章链接:https://arxiv.org/abs/2303.16509

项目代码:https://holodiffusion.github.io/

81d97290bec385356c05b9fd4c4aa8a7.png

78193643c757257ae0fc188b4788091c.png

摘要:

       扩散模型已成为 2D 图像生成建模的最佳方法。他们成功的部分原因在于有可能以稳定的学习目标对数百万甚至数十亿张图像进行训练。然而,由于两个原因,将这些模型扩展到 3D 仍然很困难。首先,寻找大量 3D 训练数据比寻找 2D 图像要复杂得多。其次,虽然扩展模型以在 3D 而不是 2D 网格上运行在概念上是微不足道的,但相关的内存和计算复杂性的立方增长使得这不可行。我们通过引入一种新的扩散设置来解决第一个挑战,该设置可以端到端地进行训练,仅使用用于监督的 2D 姿势图像;第二个挑战是提出一种将模型记忆与空间记忆分离的图像形成模型。我们使用之前未用于训练 3D 生成模型的 CO3D 数据集评估我们在真实世界数据上的方法。我们表明,我们的扩散模型具有可扩展性、训练鲁棒性,并且在样本质量和保真度方面与现有的 3D 生成建模方法相比具有竞争力。

3.Your Diffusion Model is Secretly a Zero-Shot Classifier

38c1cba1b9f6b69ea0448a87d3ea64db.png

标题:您的扩散模型实际上是一个零样本分类器

作者:Alexander C. Li, Mihir Prabhudesai, Shivam Duggal, Ellis Brown, Deepak Pathak

文章链接:https://arxiv.org/abs/2303.16203

项目代码:https://diffusion-classifier.github.io/

a45496a6f8181e6eff4e8887ebf6ee47.png

61f9495abc9746f7e469f25e36458713.png

c0e6dc295b230841b1526760dc5b6212.png

fcbb2a7a0322d29069e1567b8ae99bb4.png

摘要:

       最近的大规模文本到图像扩散模型浪潮极大地提高了我们基于文本的图像生成能力。这些模型可以为种类繁多的提示生成逼真的图像,并展现出令人印象深刻的构图泛化能力。到目前为止,几乎所有用例都只关注采样;然而,扩散模型也可以提供条件密度估计,这对于图像生成以外的任务很有用。在本文中,我们展示了从大规模文本到图像扩散模型(如 Stable Diffusion)的密度估计可用于执行零样本分类,而无需任何额外训练。我们称为扩散分类器的生成式分类方法在各种基准测试中取得了很好的结果,并且优于从扩散模型中提取知识的其他方法。尽管零镜头识别任务的生成方法和判别方法之间仍然存在差距,但我们发现我们基于扩散的方法比竞争判别方法具有更强的多模态关系推理能力。最后,我们使用扩散分类器从在 ImageNet 上训练的类条件扩散模型中提取标准分类器。尽管这些模型经过弱增强训练且没有正则化,但它们接近 SOTA 判别分类器的性能。总的来说,我们的结果是朝着对下游任务使用生成模型而不是判别模型迈出的一步。此 https URL 的结果和可视化

目录
打赏
0
0
0
0
12
分享
相关文章
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
199 0
每日学术速递4.3
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
162 0
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
199 0
每日学术速递4.19
最近,基于端到端变压器的检测器 (DETR) 取得了显着的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用并阻止它们充分利用无后处理的好处,例如非最大抑制 (NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了端到端速度基准
226 0
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
198 0
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
211 0
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
133 0
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
194 0
每日学术速递4.1
本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。
217 0
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
129 0