每日学术速递5.6

简介: 大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.AG3D: Learning to Generate 3D Avatars from 2D Image Collections


d70b1b0f3ac751711513ee517608b973.png

标题:AG3D:学习从 2D 图像集合生成 3D 头像

作者:Zijian Dong, Xu Chen, Jinlong Yang, Michael J. Black, Otmar Hilliges, Andreas Geiger

文章链接:https://arxiv.org/abs/2305.02312

项目代码:https://zj-dong.github.io/AG3D/

6954bf0ce849d198544c1d3cee74f734.png

d7de4d3a27c05be96485d89e31d8a430.png

10af3c7e8e12a1f3ca7fdabd8394baf8.png

摘要:

       虽然人类外表的 2D 生成模型进展迅速,但许多应用程序需要可以动画和渲染的 3D 化身。不幸的是,大多数现有的学习具有不同形状和外观的 3D 人体生成模型的方法都需要 3D 训练数据,而这些数据有限且获取成本高昂。因此,进步的关键是从丰富的非结构化 2D 图像集合中学习 3D 化身的生成模型。然而,在这种欠约束的环境中学习真实和完整的 3D 外观和几何形状仍然具有挑战性,尤其是在存在宽松衣服(例如连衣裙)的情况下。在本文中,我们提出了一种新的来自 2D 图像的真实 3D 人的对抗生成模型。我们的方法通过采用整体 3D 生成器并集成高效灵活的关节模块来捕捉身体和宽松衣服的形状和变形。为了提高真实性,我们使用多个鉴别器训练我们的模型,同时还以预测的 2D 法线图的形式整合几何线索。我们通过实验发现,我们的方法在几何和外观方面优于以前的 3D 和关节感知方法。我们通过系统的消融研究验证了我们模型的有效性和每个组件的重要性。

2.Real-Time Radiance Fields for Single-Image Portrait View Synthesis(SIGGRAPH 2023)

d3c76d6bfd8df0c11135c226d81d078a.png

标题:用于单图像人像视图合成的实时辐射场

作者:Alex Trevithick, Matthew Chan, Michael Stengel, Eric R. Chan, Chao Liu, Zhiding Yu, Sameh Khamis, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano

文章链接:https://arxiv.org/abs/2305.02310

项目代码:https://research.nvidia.com/labs/nxp/lp3d/

e531058a796f31258c7c37fde0ab76ee.png

753c7a8d540595db3fe88e16220bffaf.png

摘要:

       我们提出了一种一次性方法,可以实时从单个未摆姿势的图像(例如人脸肖像)推断和渲染逼真的 3D 表示。给定单个 RGB 输入,我们的图像编码器直接预测神经辐射场的规范三平面表示,用于通过体积渲染进行 3D 感知的新视图合成。我们的方法在消费类硬件上速度很快(24 fps),并且比需要测试时间优化的强 GAN 反转基线产生更高质量的结果。为了训练我们的三平面编码器流水线,我们仅使用合成数据,展示了如何将知识从预训练的 3D GAN 提取到前馈编码器中。技术贡献包括基于 Vision Transformer 的三平面编码器、相机数据增强策略以及用于合成数据训练的精心设计的损失函数。我们以最先进的方法为基准,展示了在具有挑战性的现实世界环境中稳健性和图像质量的显着改进。我们展示了我们在人脸肖像 (FFHQ) 和猫 (AFHQ) 上的结果,但我们的算法也可以在未来应用于其他类别,并带有 3D 感知图像生成器。

3.Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings

a59ad8b1504ee54ff110d353b9bfb1f6.png

标题:视觉思维链:通过多模式填充弥合逻辑鸿沟

作者:Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei, Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang

文章链接:https://arxiv.org/abs/2305.02317

f5e6ae71283eca66a5c5d853aa6c4239.png

6892ad524d422d8680675739d1af0ab9.png

d5e888ca7551900a9d594aed3a441ef4.png

9669be1885db06049a0a27bc71af2a39.png

9a3a40b01169329b9b14742b88b5945b.png

1e2893b66767d033482d7289a43b5763.png

摘要:

       大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务。我们声称将视觉增强结合到推理中是必不可少的,尤其是对于复杂的、富有想象力的任务。因此,我们引入了 VCoT,这是一种利用思维链提示和视觉语言基础的新方法,以递归地弥合顺序数据中的逻辑差距。我们的方法使用视觉引导来生成合成的多模式填充,这些填充添加了一致的和新颖的信息,以减少可以从时间推理中受益的下游任务的逻辑差距,并为模型的多步推理提供可解释性。我们将 VCoT 应用于 Visual Storytelling 和 WikiHow 摘要数据集,并通过人工评估证明 VCoT 提供了新颖且一致的合成数据增强,击败了思想基线链,可用于增强下游性能。

目录
相关文章
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.11
最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。
113 0
|
自然语言处理 计算机视觉
每日学术速递3.6
本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。
147 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
131 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
137 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
140 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
179 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
214 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
143 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
104 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
264 0

热门文章

最新文章