每日学术速递3.31

简介: 我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

53ff61d7ab4235e2a6fb1f99d76e9333.png

标题:LLaMA-Adapter:具有零初始注意力的语言模型的高效微调

作者:Yutao Cui, Cheng Jiang, Gangshan Wu, LiMin Wang

文章链接:https://arxiv.org/abs/2303.16199

项目代码:https://github.com/ZrrSkywalker/LLaMA-Adapter

0491ba265e72f2f6faa59fbbfd08d3c6.png

9a5958a6cb117b3152bc167573e5c345.png

dd35cc4e245cddf70084beaae72c4945.png

7c1a1f786d3a1a5f66f4107bee076865.png

摘要:

       我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。具体来说,我们采用了一组可学习的自适应提示,并将它们添加到更高转换器层的输入文本标记中。然后,提出了一种具有零门控的零初始注意机制,该机制自适应地将新的教学线索注入 LLaMA,同时有效地保留其预训练知识。通过高效的训练,LLaMA-Adapter 生成高质量的响应,与具有完全微调的 7B 参数的羊驼相媲美。此外,我们的方法可以简单地扩展到多模态输入,例如图像,用于图像条件 LLaMA,从而在 ScienceQA 上实现卓越的推理能力。我们在这个 https URL 上发布我们的代码。

2.HOLODIFFUSION: Training a 3D Diffusion Model using 2D Images

20e30df285cedc6d38e417ecfa36e6a8.png

标题:HOLODIFFUSION:使用 2D 图像训练 3D 扩散模型

作者:Animesh Karnewar, Andrea Vedaldi, David Novotny, Niloy Mitra

文章链接:https://arxiv.org/abs/2303.16509

项目代码:https://holodiffusion.github.io/

81d97290bec385356c05b9fd4c4aa8a7.png

78193643c757257ae0fc188b4788091c.png

摘要:

       扩散模型已成为 2D 图像生成建模的最佳方法。他们成功的部分原因在于有可能以稳定的学习目标对数百万甚至数十亿张图像进行训练。然而,由于两个原因,将这些模型扩展到 3D 仍然很困难。首先,寻找大量 3D 训练数据比寻找 2D 图像要复杂得多。其次,虽然扩展模型以在 3D 而不是 2D 网格上运行在概念上是微不足道的,但相关的内存和计算复杂性的立方增长使得这不可行。我们通过引入一种新的扩散设置来解决第一个挑战,该设置可以端到端地进行训练,仅使用用于监督的 2D 姿势图像;第二个挑战是提出一种将模型记忆与空间记忆分离的图像形成模型。我们使用之前未用于训练 3D 生成模型的 CO3D 数据集评估我们在真实世界数据上的方法。我们表明,我们的扩散模型具有可扩展性、训练鲁棒性,并且在样本质量和保真度方面与现有的 3D 生成建模方法相比具有竞争力。

3.Your Diffusion Model is Secretly a Zero-Shot Classifier

38c1cba1b9f6b69ea0448a87d3ea64db.png

标题:您的扩散模型实际上是一个零样本分类器

作者:Alexander C. Li, Mihir Prabhudesai, Shivam Duggal, Ellis Brown, Deepak Pathak

文章链接:https://arxiv.org/abs/2303.16203

项目代码:https://diffusion-classifier.github.io/

a45496a6f8181e6eff4e8887ebf6ee47.png

61f9495abc9746f7e469f25e36458713.png

c0e6dc295b230841b1526760dc5b6212.png

fcbb2a7a0322d29069e1567b8ae99bb4.png

摘要:

       最近的大规模文本到图像扩散模型浪潮极大地提高了我们基于文本的图像生成能力。这些模型可以为种类繁多的提示生成逼真的图像,并展现出令人印象深刻的构图泛化能力。到目前为止,几乎所有用例都只关注采样;然而,扩散模型也可以提供条件密度估计,这对于图像生成以外的任务很有用。在本文中,我们展示了从大规模文本到图像扩散模型(如 Stable Diffusion)的密度估计可用于执行零样本分类,而无需任何额外训练。我们称为扩散分类器的生成式分类方法在各种基准测试中取得了很好的结果,并且优于从扩散模型中提取知识的其他方法。尽管零镜头识别任务的生成方法和判别方法之间仍然存在差距,但我们发现我们基于扩散的方法比竞争判别方法具有更强的多模态关系推理能力。最后,我们使用扩散分类器从在 ImageNet 上训练的类条件扩散模型中提取标准分类器。尽管这些模型经过弱增强训练且没有正则化,但它们接近 SOTA 判别分类器的性能。总的来说,我们的结果是朝着对下游任务使用生成模型而不是判别模型迈出的一步。此 https URL 的结果和可视化

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
110 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
116 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
171 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
147 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递4.6
大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一
141 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
112 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
119 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
111 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
116 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递4.19
最近,基于端到端变压器的检测器 (DETR) 取得了显着的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用并阻止它们充分利用无后处理的好处,例如非最大抑制 (NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了端到端速度基准
161 0