每日学术速递5.1

简介: 大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Putting People in Their Place: Affordance-Aware Human Insertion into Scenes

588264bab98f488884d46aeb20ff0449.png

标题:把人放在他们的位置:可供感知的人类插入场景

作者:Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang, Jingwan Lu, Alexei A. Efros, Krishna Kumar Singh

文章链接:https://arxiv.org/abs/2304.14406

项目代码:https://sumith1896.github.io/affordance-insertion/

e12283209c8cad0e7435ad71312720bb.png

9cdd814819111b9cd23f000f92ab92c3.png

0068f2c881aee72dc20e954238c77306.png

摘要:

       我们通过提出一种将人物实际插入场景的方法来研究推断场景可供性的问题。给定一个带有标记区域的场景图像和一个人的图像,我们将人插入到场景中,同时尊重场景可供性。我们的模型可以在给定场景上下文的情况下推断出一组逼真的姿势,重新摆出参考人物的姿势,并协调构图。我们通过学习在视频剪辑中重新摆姿势,以自我监督的方式设置任务。我们在 240 万个视频片段的数据集上训练了一个大规模扩散模型,该模型在尊重场景上下文的同时产生不同的合理姿势。鉴于学习到的人景组合,我们的模型还可以在没有条件的情况下在提示时产生真实的人物和场景的幻觉,并且还可以进行交互式编辑。定量评估表明,与之前的工作相比,我们的方法合成了更逼真的人类外观和更自然的人景交互。

2.Motion-Conditioned Diffusion Model for Controllable Video Synthesis

6d7258361290b13baa40da32a941b9b6.png

标题:用于可控视频合成的运动条件扩散模型

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2304.14404

项目代码:https://tsaishien-chen.github.io/MCDiff/

30c78d9a3710ed2514908c79524805a8.png

c0be10624ebd35edda6090788333d175.png

7386a894d3f64dd0c5a6c03bd6d3c02b.png

8430a1fd062e7067b3583bf4262cba32.png

摘要:

       扩散模型的最新进展极大地提高了合成内容的质量和多样性。为了利用扩散模型的表达能力,研究人员探索了各种可控机制,使用户能够直观地指导内容合成过程。尽管最近的努力主要集中在视频合成上,但一直缺乏有效的方法来控制和描述所需的内容和动作。为了应对这一差距,我们引入了 MCDiff,这是一种条件扩散模型,它从起始图像帧和一组笔画生成视频,允许用户指定合成的预期内容和动态。为了解决稀疏运动输入的歧义并获得更好的合成质量,MCDiff 首先利用流完成模型基于视频帧的语义理解和稀疏运动控制来预测密集视频运动。然后,扩散模型合成高质量的未来帧以形成输出视频。我们定性和定量地表明,MCDiff 在笔触引导的可控视频合成中实现了最先进的视觉质量。MPII Human Pose 的额外实验进一步展示了我们的模型在不同内容和运动合成方面的能力。

3.mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality

ba847c6000cee045375197d02df6a31d.png

标题:mPLUG-Owl:模块化赋予大型语言模型多模态能力

作者:Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi

文章链接:https://arxiv.org/abs/2304.14178

项目代码:https://www.modelscope.cn/studios/damo/mPLUG-Owl

909735eeda848ebca964845f8da8ef86.png

03e5d927dae56278663c614c06a89cba.png

5d1e3d91393d76063b02b5bef8966ff6.png

4d43657f4e6a512298118847aa92a6cb.png

摘要:

       大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。在这项研究中,我们介绍了 mPLUG-Owl,这是一种新颖的训练范式,通过基础 LLM、视觉知识模块和视觉抽象模块的模块化学习,为 LLM 配备多模态能力。这种方法可以支持多种模态,并通过模态协作促进多样化的单模态和多模态能力。mPLUG-Owl 的训练范式涉及图像和文本对齐的两阶段方法,它在 LLM 的帮助下学习视觉知识,同时保持甚至提高 LLM 的生成能力。在第一阶段,视觉知识模块和抽象模块使用冻结的 LLM 模块进行训练,以对齐图像和文本。在第二阶段,使用纯语言和多模态监督数据集通过冻结视觉知识模块联合微调 LLM 上的低秩适应 (LoRA) 模块和抽象模块。我们精心构建了一个视觉相关的指令评估集 OwlEval。实验结果表明,我们的模型优于现有的多模态模型,展示了 mPLUG-Owl 令人印象深刻的指令和视觉理解能力、多轮对话能力和知识推理能力。此外,我们观察到一些意想不到且令人兴奋的能力,例如多图像关联和场景文本理解,这使得将其用于更难的真实场景(例如仅视觉文档理解)成为可能。我们的代码、预训练模型、指令调整模型和评估集可在这个 https URL 获得。此 https URL 提供在线演示。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
101 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.3
用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。
179 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
80 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
115 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
108 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
118 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
93 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
128 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
78 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
103 0