每日学术速递5.1

简介: 大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Putting People in Their Place: Affordance-Aware Human Insertion into Scenes

588264bab98f488884d46aeb20ff0449.png

标题:把人放在他们的位置:可供感知的人类插入场景

作者:Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang, Jingwan Lu, Alexei A. Efros, Krishna Kumar Singh

文章链接:https://arxiv.org/abs/2304.14406

项目代码:https://sumith1896.github.io/affordance-insertion/

e12283209c8cad0e7435ad71312720bb.png

9cdd814819111b9cd23f000f92ab92c3.png

0068f2c881aee72dc20e954238c77306.png

摘要:

       我们通过提出一种将人物实际插入场景的方法来研究推断场景可供性的问题。给定一个带有标记区域的场景图像和一个人的图像,我们将人插入到场景中,同时尊重场景可供性。我们的模型可以在给定场景上下文的情况下推断出一组逼真的姿势,重新摆出参考人物的姿势,并协调构图。我们通过学习在视频剪辑中重新摆姿势,以自我监督的方式设置任务。我们在 240 万个视频片段的数据集上训练了一个大规模扩散模型,该模型在尊重场景上下文的同时产生不同的合理姿势。鉴于学习到的人景组合,我们的模型还可以在没有条件的情况下在提示时产生真实的人物和场景的幻觉,并且还可以进行交互式编辑。定量评估表明,与之前的工作相比,我们的方法合成了更逼真的人类外观和更自然的人景交互。

2.Motion-Conditioned Diffusion Model for Controllable Video Synthesis

6d7258361290b13baa40da32a941b9b6.png

标题:用于可控视频合成的运动条件扩散模型

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2304.14404

项目代码:https://tsaishien-chen.github.io/MCDiff/

30c78d9a3710ed2514908c79524805a8.png

c0be10624ebd35edda6090788333d175.png

7386a894d3f64dd0c5a6c03bd6d3c02b.png

8430a1fd062e7067b3583bf4262cba32.png

摘要:

       扩散模型的最新进展极大地提高了合成内容的质量和多样性。为了利用扩散模型的表达能力,研究人员探索了各种可控机制,使用户能够直观地指导内容合成过程。尽管最近的努力主要集中在视频合成上,但一直缺乏有效的方法来控制和描述所需的内容和动作。为了应对这一差距,我们引入了 MCDiff,这是一种条件扩散模型,它从起始图像帧和一组笔画生成视频,允许用户指定合成的预期内容和动态。为了解决稀疏运动输入的歧义并获得更好的合成质量,MCDiff 首先利用流完成模型基于视频帧的语义理解和稀疏运动控制来预测密集视频运动。然后,扩散模型合成高质量的未来帧以形成输出视频。我们定性和定量地表明,MCDiff 在笔触引导的可控视频合成中实现了最先进的视觉质量。MPII Human Pose 的额外实验进一步展示了我们的模型在不同内容和运动合成方面的能力。

3.mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality

ba847c6000cee045375197d02df6a31d.png

标题:mPLUG-Owl:模块化赋予大型语言模型多模态能力

作者:Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi

文章链接:https://arxiv.org/abs/2304.14178

项目代码:https://www.modelscope.cn/studios/damo/mPLUG-Owl

909735eeda848ebca964845f8da8ef86.png

03e5d927dae56278663c614c06a89cba.png

5d1e3d91393d76063b02b5bef8966ff6.png

4d43657f4e6a512298118847aa92a6cb.png

摘要:

       大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。在这项研究中,我们介绍了 mPLUG-Owl,这是一种新颖的训练范式,通过基础 LLM、视觉知识模块和视觉抽象模块的模块化学习,为 LLM 配备多模态能力。这种方法可以支持多种模态,并通过模态协作促进多样化的单模态和多模态能力。mPLUG-Owl 的训练范式涉及图像和文本对齐的两阶段方法,它在 LLM 的帮助下学习视觉知识,同时保持甚至提高 LLM 的生成能力。在第一阶段,视觉知识模块和抽象模块使用冻结的 LLM 模块进行训练,以对齐图像和文本。在第二阶段,使用纯语言和多模态监督数据集通过冻结视觉知识模块联合微调 LLM 上的低秩适应 (LoRA) 模块和抽象模块。我们精心构建了一个视觉相关的指令评估集 OwlEval。实验结果表明,我们的模型优于现有的多模态模型,展示了 mPLUG-Owl 令人印象深刻的指令和视觉理解能力、多轮对话能力和知识推理能力。此外,我们观察到一些意想不到且令人兴奋的能力,例如多图像关联和场景文本理解,这使得将其用于更难的真实场景(例如仅视觉文档理解)成为可能。我们的代码、预训练模型、指令调整模型和评估集可在这个 https URL 获得。此 https URL 提供在线演示。

目录
打赏
0
0
0
0
12
分享
相关文章
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
208 0
每日学术速递3.20
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
198 0
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
158 0
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
128 0
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
183 0
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
160 0
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
175 0
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
129 0
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
202 0
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
148 0