每日学术速递3.31

简介: 我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

53ff61d7ab4235e2a6fb1f99d76e9333.png

标题:LLaMA-Adapter:具有零初始注意力的语言模型的高效微调

作者:Yutao Cui, Cheng Jiang, Gangshan Wu, LiMin Wang

文章链接:https://arxiv.org/abs/2303.16199

项目代码:https://github.com/ZrrSkywalker/LLaMA-Adapter

0491ba265e72f2f6faa59fbbfd08d3c6.png

9a5958a6cb117b3152bc167573e5c345.png

dd35cc4e245cddf70084beaae72c4945.png

7c1a1f786d3a1a5f66f4107bee076865.png

摘要:

       我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。具体来说,我们采用了一组可学习的自适应提示,并将它们添加到更高转换器层的输入文本标记中。然后,提出了一种具有零门控的零初始注意机制,该机制自适应地将新的教学线索注入 LLaMA,同时有效地保留其预训练知识。通过高效的训练,LLaMA-Adapter 生成高质量的响应,与具有完全微调的 7B 参数的羊驼相媲美。此外,我们的方法可以简单地扩展到多模态输入,例如图像,用于图像条件 LLaMA,从而在 ScienceQA 上实现卓越的推理能力。我们在这个 https URL 上发布我们的代码。

2.HOLODIFFUSION: Training a 3D Diffusion Model using 2D Images

20e30df285cedc6d38e417ecfa36e6a8.png

标题:HOLODIFFUSION:使用 2D 图像训练 3D 扩散模型

作者:Animesh Karnewar, Andrea Vedaldi, David Novotny, Niloy Mitra

文章链接:https://arxiv.org/abs/2303.16509

项目代码:https://holodiffusion.github.io/

81d97290bec385356c05b9fd4c4aa8a7.png

78193643c757257ae0fc188b4788091c.png

摘要:

       扩散模型已成为 2D 图像生成建模的最佳方法。他们成功的部分原因在于有可能以稳定的学习目标对数百万甚至数十亿张图像进行训练。然而,由于两个原因,将这些模型扩展到 3D 仍然很困难。首先,寻找大量 3D 训练数据比寻找 2D 图像要复杂得多。其次,虽然扩展模型以在 3D 而不是 2D 网格上运行在概念上是微不足道的,但相关的内存和计算复杂性的立方增长使得这不可行。我们通过引入一种新的扩散设置来解决第一个挑战,该设置可以端到端地进行训练,仅使用用于监督的 2D 姿势图像;第二个挑战是提出一种将模型记忆与空间记忆分离的图像形成模型。我们使用之前未用于训练 3D 生成模型的 CO3D 数据集评估我们在真实世界数据上的方法。我们表明,我们的扩散模型具有可扩展性、训练鲁棒性,并且在样本质量和保真度方面与现有的 3D 生成建模方法相比具有竞争力。

3.Your Diffusion Model is Secretly a Zero-Shot Classifier

38c1cba1b9f6b69ea0448a87d3ea64db.png

标题:您的扩散模型实际上是一个零样本分类器

作者:Alexander C. Li, Mihir Prabhudesai, Shivam Duggal, Ellis Brown, Deepak Pathak

文章链接:https://arxiv.org/abs/2303.16203

项目代码:https://diffusion-classifier.github.io/

a45496a6f8181e6eff4e8887ebf6ee47.png

61f9495abc9746f7e469f25e36458713.png

c0e6dc295b230841b1526760dc5b6212.png

fcbb2a7a0322d29069e1567b8ae99bb4.png

摘要:

       最近的大规模文本到图像扩散模型浪潮极大地提高了我们基于文本的图像生成能力。这些模型可以为种类繁多的提示生成逼真的图像,并展现出令人印象深刻的构图泛化能力。到目前为止,几乎所有用例都只关注采样;然而,扩散模型也可以提供条件密度估计,这对于图像生成以外的任务很有用。在本文中,我们展示了从大规模文本到图像扩散模型(如 Stable Diffusion)的密度估计可用于执行零样本分类,而无需任何额外训练。我们称为扩散分类器的生成式分类方法在各种基准测试中取得了很好的结果,并且优于从扩散模型中提取知识的其他方法。尽管零镜头识别任务的生成方法和判别方法之间仍然存在差距,但我们发现我们基于扩散的方法比竞争判别方法具有更强的多模态关系推理能力。最后,我们使用扩散分类器从在 ImageNet 上训练的类条件扩散模型中提取标准分类器。尽管这些模型经过弱增强训练且没有正则化,但它们接近 SOTA 判别分类器的性能。总的来说,我们的结果是朝着对下游任务使用生成模型而不是判别模型迈出的一步。此 https URL 的结果和可视化

目录
相关文章
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
96 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.3
用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。
206 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
122 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
119 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
86 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
124 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
100 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
213 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
98 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
160 0

热门文章

最新文章