每日学术速递4.6

简介: 大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain Gap Using Pose-Preserved Text-to-Image Diffusion

e0e81f4dda465a5edfa40c4726a6122a.png

标题:PODIA-3D:使用姿势保持文本到图像扩散的 3D 生成模型跨大域间隙的域自适应

作者:Gwanghyun Kim, Ji Ha Jang, Se Young Chun

文章链接:https://arxiv.org/abs/2304.01900

项目代码:https://gwang-kim.github.io/podia_3d/

b9c4f5d2377d9ff98b9748dd993e86b4.png

f6f12eb3b3d2978638dd80b42d0c36f6.png

3349e1020d3a9f9252b884252492cc6f.png

dd971c9ff07612f406107fa69044fd6d.png

摘要:

       最近,3D 生成模型取得了重大进展,但跨不同领域训练这些模型具有挑战性,需要大量训练数据和姿势分布知识。文本引导域适应方法允许生成器使用文本提示适应目标域,从而避免组装大量数据的需要。最近,DATID-3D 在文本引导域中呈现出令人印象深刻的样本质量,通过利用文本到图像的扩散来保留文本的多样性。然而,由于当前文本到图像扩散模型中存在以下问题,使 3D 生成器适应与源域存在显着域差距的域仍然具有挑战性:1) 基于扩散的翻译中的形状-姿势权衡,2) 姿势偏差,以及 3) 目标域中的实例偏差,导致生成的样本中的 3D 形状较差、文本-图像对应度低和域内多样性低。为了解决这些问题,我们提出了一种名为 PODIA-3D 的新型管道,它使用基于姿势保留的文本到图像扩散的域适应 3D 生成模型。我们构建了一个保留姿势的文本到图像扩散模型,该模型允许对显着的域变化使用极高级别的噪声。我们还提出了专门到一般的抽样策略,以改善生成样本的细节。此外,为了克服实例偏差,我们引入了一种文本引导的去偏差方法,可以提高域内多样性。因此,我们的方法成功地适应了显着域差距的 3D 生成器。我们的定性结果和用户研究表明,我们的方法在文本-图像对应、真实感、渲染图像的多样性以及生成样本中 3D 形状的深度感方面优于现有的 3D 文本引导域自适应方法

2.Self-Refine: Iterative Refinement with Self-Feedback

0fd768cd571fdac24ba5e96b20966aca.png

标题:自我完善:通过自我反馈进行迭代完善

作者:Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe,

文章链接:https://arxiv.org/abs/2303.17651

项目代码:https://selfrefine.info/

21260615368824f8a9e9a8e5919b8296.png

df05dfcb7d3e58d00d080ae8df9e9ee1.png

99d00ad886dc22f1899c5d8f45e76819.png

8f1b26b4f41247eb32c5f7deabc92c6d.png

摘要:

       与人一样,LLM 并不总是在第一次尝试时就为给定的生成问题生成最佳文本(例如,摘要、答案、解释)。正如人们随后改进他们的文本一样,我们引入了 SELF-REFINE,这是一个通过迭代反馈和改进类似地改进 LLM 初始输出的框架。主要思想是使用 LLM 生成输出,然后允许同一模型为其自身的输出提供多方面的反馈;最后,同一模型根据自己的反馈改进其先前生成的输出。与早期的工作不同,我们的迭代优化框架不需要监督训练数据或强化学习,并且适用于单个 LLM。我们试验了 7 项不同的任务,从评论重写到数学推理,证明我们的方法优于直接生成。在所有任务中,使用 SELF-REFINE 生成的输出比直接使用 GPT-3.5 和 GPT-4 生成的输出更受人类和自动化指标的青睐,跨任务平均绝对提高 20%。

4e376bb4b5aa876b5f4b0eb74d37bd19.png

标题:LLM-Adapters:用于大型语言模型参数高效微调的适配器系列

作者:Zhiqiang Hu, Yihuai Lan, Lei Wang, Wanyu Xu, Ee-Peng Lim, Roy Ka-Wei Lee, Lidong Bing, Soujanya Poria

文章链接:https://arxiv.org/abs/2304.01933

项目代码:https://github.com/AGI-Edgerunners/LLM-Adapters

7b9041600d442a67d6d53ccaa9217027.png

7854041921b06f64e2b0cced892fc75a.png

摘要:

       大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一,因为它只需要微调几个外部参数而不是整个LLM,同时达到可比甚至什至更好的性能。为了进一步研究 LLM 的 PEFT 方法,本文提出了 LLM-Adapters,这是一个易于使用的框架,它将各种适配器集成到 LLM 中,并可以针对不同的任务执行这些基于适配器的 LLM PEFT 方法。该框架包括最先进的开放访问 LLM,如 LLaMA、BLOOM、OPT 和 GPT-J,以及广泛使用的适配器,如串行适配器、并行适配器和 LoRA。该框架旨在研究友好、高效、模块化和可扩展,允许集成新的适配器并使用新的和更大规模的 LLM 对其进行评估。此外,为了评估 LLMs-Adapter 中适配器的有效性,我们对六个数学推理数据集进行了实验。结果表明,在具有少量额外可训练参数的较小规模 LLM (7B) 中使用基于适配器的 PEFT 产生的性能与强大的 LLM (175B) 相当,在某些情况下优于简单数学推理数据集的零样本推理.总的来说,我们提供了一个有前途的框架,用于在下游任务上微调大型 LLM。 我们相信拟议的 LLMs-Adapters 将推进基于适配器的 PEFT 研究,促进研究管道的部署,并使实际应用程序能够应用于现实世界的系统。

目录
相关文章
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
123 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.16
我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小
173 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递2.16
半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成
154 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
92 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
142 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
157 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
114 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
122 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
100 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
138 0

热门文章

最新文章