每日学术速递5.6

简介: 大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.AG3D: Learning to Generate 3D Avatars from 2D Image Collections


d70b1b0f3ac751711513ee517608b973.png

标题:AG3D:学习从 2D 图像集合生成 3D 头像

作者:Zijian Dong, Xu Chen, Jinlong Yang, Michael J. Black, Otmar Hilliges, Andreas Geiger

文章链接:https://arxiv.org/abs/2305.02312

项目代码:https://zj-dong.github.io/AG3D/

6954bf0ce849d198544c1d3cee74f734.png

d7de4d3a27c05be96485d89e31d8a430.png

10af3c7e8e12a1f3ca7fdabd8394baf8.png

摘要:

       虽然人类外表的 2D 生成模型进展迅速,但许多应用程序需要可以动画和渲染的 3D 化身。不幸的是,大多数现有的学习具有不同形状和外观的 3D 人体生成模型的方法都需要 3D 训练数据,而这些数据有限且获取成本高昂。因此,进步的关键是从丰富的非结构化 2D 图像集合中学习 3D 化身的生成模型。然而,在这种欠约束的环境中学习真实和完整的 3D 外观和几何形状仍然具有挑战性,尤其是在存在宽松衣服(例如连衣裙)的情况下。在本文中,我们提出了一种新的来自 2D 图像的真实 3D 人的对抗生成模型。我们的方法通过采用整体 3D 生成器并集成高效灵活的关节模块来捕捉身体和宽松衣服的形状和变形。为了提高真实性,我们使用多个鉴别器训练我们的模型,同时还以预测的 2D 法线图的形式整合几何线索。我们通过实验发现,我们的方法在几何和外观方面优于以前的 3D 和关节感知方法。我们通过系统的消融研究验证了我们模型的有效性和每个组件的重要性。

2.Real-Time Radiance Fields for Single-Image Portrait View Synthesis(SIGGRAPH 2023)

d3c76d6bfd8df0c11135c226d81d078a.png

标题:用于单图像人像视图合成的实时辐射场

作者:Alex Trevithick, Matthew Chan, Michael Stengel, Eric R. Chan, Chao Liu, Zhiding Yu, Sameh Khamis, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano

文章链接:https://arxiv.org/abs/2305.02310

项目代码:https://research.nvidia.com/labs/nxp/lp3d/

e531058a796f31258c7c37fde0ab76ee.png

753c7a8d540595db3fe88e16220bffaf.png

摘要:

       我们提出了一种一次性方法,可以实时从单个未摆姿势的图像(例如人脸肖像)推断和渲染逼真的 3D 表示。给定单个 RGB 输入,我们的图像编码器直接预测神经辐射场的规范三平面表示,用于通过体积渲染进行 3D 感知的新视图合成。我们的方法在消费类硬件上速度很快(24 fps),并且比需要测试时间优化的强 GAN 反转基线产生更高质量的结果。为了训练我们的三平面编码器流水线,我们仅使用合成数据,展示了如何将知识从预训练的 3D GAN 提取到前馈编码器中。技术贡献包括基于 Vision Transformer 的三平面编码器、相机数据增强策略以及用于合成数据训练的精心设计的损失函数。我们以最先进的方法为基准,展示了在具有挑战性的现实世界环境中稳健性和图像质量的显着改进。我们展示了我们在人脸肖像 (FFHQ) 和猫 (AFHQ) 上的结果,但我们的算法也可以在未来应用于其他类别,并带有 3D 感知图像生成器。

3.Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings

a59ad8b1504ee54ff110d353b9bfb1f6.png

标题:视觉思维链:通过多模式填充弥合逻辑鸿沟

作者:Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei, Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang

文章链接:https://arxiv.org/abs/2305.02317

f5e6ae71283eca66a5c5d853aa6c4239.png

6892ad524d422d8680675739d1af0ab9.png

d5e888ca7551900a9d594aed3a441ef4.png

9669be1885db06049a0a27bc71af2a39.png

9a3a40b01169329b9b14742b88b5945b.png

1e2893b66767d033482d7289a43b5763.png

摘要:

       大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务。我们声称将视觉增强结合到推理中是必不可少的,尤其是对于复杂的、富有想象力的任务。因此,我们引入了 VCoT,这是一种利用思维链提示和视觉语言基础的新方法,以递归地弥合顺序数据中的逻辑差距。我们的方法使用视觉引导来生成合成的多模式填充,这些填充添加了一致的和新颖的信息,以减少可以从时间推理中受益的下游任务的逻辑差距,并为模型的多步推理提供可解释性。我们将 VCoT 应用于 Visual Storytelling 和 WikiHow 摘要数据集,并通过人工评估证明 VCoT 提供了新颖且一致的合成数据增强,击败了思想基线链,可用于增强下游性能。

目录
打赏
0
0
0
0
12
分享
相关文章
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
197 0
每日学术速递3.9
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
191 0
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
163 0
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
198 0
每日学术速递5.3
用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。
232 0
每日学术速递2.28
最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。
110 0
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
132 0
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
199 0
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
212 0
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
188 0