每日学术速递4.6

简介: 大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain Gap Using Pose-Preserved Text-to-Image Diffusion

e0e81f4dda465a5edfa40c4726a6122a.png

标题:PODIA-3D:使用姿势保持文本到图像扩散的 3D 生成模型跨大域间隙的域自适应

作者:Gwanghyun Kim, Ji Ha Jang, Se Young Chun

文章链接:https://arxiv.org/abs/2304.01900

项目代码:https://gwang-kim.github.io/podia_3d/

b9c4f5d2377d9ff98b9748dd993e86b4.png

f6f12eb3b3d2978638dd80b42d0c36f6.png

3349e1020d3a9f9252b884252492cc6f.png

dd971c9ff07612f406107fa69044fd6d.png

摘要:

       最近,3D 生成模型取得了重大进展,但跨不同领域训练这些模型具有挑战性,需要大量训练数据和姿势分布知识。文本引导域适应方法允许生成器使用文本提示适应目标域,从而避免组装大量数据的需要。最近,DATID-3D 在文本引导域中呈现出令人印象深刻的样本质量,通过利用文本到图像的扩散来保留文本的多样性。然而,由于当前文本到图像扩散模型中存在以下问题,使 3D 生成器适应与源域存在显着域差距的域仍然具有挑战性:1) 基于扩散的翻译中的形状-姿势权衡,2) 姿势偏差,以及 3) 目标域中的实例偏差,导致生成的样本中的 3D 形状较差、文本-图像对应度低和域内多样性低。为了解决这些问题,我们提出了一种名为 PODIA-3D 的新型管道,它使用基于姿势保留的文本到图像扩散的域适应 3D 生成模型。我们构建了一个保留姿势的文本到图像扩散模型,该模型允许对显着的域变化使用极高级别的噪声。我们还提出了专门到一般的抽样策略,以改善生成样本的细节。此外,为了克服实例偏差,我们引入了一种文本引导的去偏差方法,可以提高域内多样性。因此,我们的方法成功地适应了显着域差距的 3D 生成器。我们的定性结果和用户研究表明,我们的方法在文本-图像对应、真实感、渲染图像的多样性以及生成样本中 3D 形状的深度感方面优于现有的 3D 文本引导域自适应方法

2.Self-Refine: Iterative Refinement with Self-Feedback

0fd768cd571fdac24ba5e96b20966aca.png

标题:自我完善:通过自我反馈进行迭代完善

作者:Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe,

文章链接:https://arxiv.org/abs/2303.17651

项目代码:https://selfrefine.info/

21260615368824f8a9e9a8e5919b8296.png

df05dfcb7d3e58d00d080ae8df9e9ee1.png

99d00ad886dc22f1899c5d8f45e76819.png

8f1b26b4f41247eb32c5f7deabc92c6d.png

摘要:

       与人一样,LLM 并不总是在第一次尝试时就为给定的生成问题生成最佳文本(例如,摘要、答案、解释)。正如人们随后改进他们的文本一样,我们引入了 SELF-REFINE,这是一个通过迭代反馈和改进类似地改进 LLM 初始输出的框架。主要思想是使用 LLM 生成输出,然后允许同一模型为其自身的输出提供多方面的反馈;最后,同一模型根据自己的反馈改进其先前生成的输出。与早期的工作不同,我们的迭代优化框架不需要监督训练数据或强化学习,并且适用于单个 LLM。我们试验了 7 项不同的任务,从评论重写到数学推理,证明我们的方法优于直接生成。在所有任务中,使用 SELF-REFINE 生成的输出比直接使用 GPT-3.5 和 GPT-4 生成的输出更受人类和自动化指标的青睐,跨任务平均绝对提高 20%。

4e376bb4b5aa876b5f4b0eb74d37bd19.png

标题:LLM-Adapters:用于大型语言模型参数高效微调的适配器系列

作者:Zhiqiang Hu, Yihuai Lan, Lei Wang, Wanyu Xu, Ee-Peng Lim, Roy Ka-Wei Lee, Lidong Bing, Soujanya Poria

文章链接:https://arxiv.org/abs/2304.01933

项目代码:https://github.com/AGI-Edgerunners/LLM-Adapters

7b9041600d442a67d6d53ccaa9217027.png

7854041921b06f64e2b0cced892fc75a.png

摘要:

       大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一,因为它只需要微调几个外部参数而不是整个LLM,同时达到可比甚至什至更好的性能。为了进一步研究 LLM 的 PEFT 方法,本文提出了 LLM-Adapters,这是一个易于使用的框架,它将各种适配器集成到 LLM 中,并可以针对不同的任务执行这些基于适配器的 LLM PEFT 方法。该框架包括最先进的开放访问 LLM,如 LLaMA、BLOOM、OPT 和 GPT-J,以及广泛使用的适配器,如串行适配器、并行适配器和 LoRA。该框架旨在研究友好、高效、模块化和可扩展,允许集成新的适配器并使用新的和更大规模的 LLM 对其进行评估。此外,为了评估 LLMs-Adapter 中适配器的有效性,我们对六个数学推理数据集进行了实验。结果表明,在具有少量额外可训练参数的较小规模 LLM (7B) 中使用基于适配器的 PEFT 产生的性能与强大的 LLM (175B) 相当,在某些情况下优于简单数学推理数据集的零样本推理.总的来说,我们提供了一个有前途的框架,用于在下游任务上微调大型 LLM。 我们相信拟议的 LLMs-Adapters 将推进基于适配器的 PEFT 研究,促进研究管道的部署,并使实际应用程序能够应用于现实世界的系统。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
110 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
116 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
151 0
每日学术速递3.20
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
142 0
每日学术速递3.9
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
119 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
147 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
88 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
124 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
145 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
120 0