每日学术速递5.6

简介: 大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.AG3D: Learning to Generate 3D Avatars from 2D Image Collections


d70b1b0f3ac751711513ee517608b973.png

标题:AG3D:学习从 2D 图像集合生成 3D 头像

作者:Zijian Dong, Xu Chen, Jinlong Yang, Michael J. Black, Otmar Hilliges, Andreas Geiger

文章链接:https://arxiv.org/abs/2305.02312

项目代码:https://zj-dong.github.io/AG3D/

6954bf0ce849d198544c1d3cee74f734.png

d7de4d3a27c05be96485d89e31d8a430.png

10af3c7e8e12a1f3ca7fdabd8394baf8.png

摘要:

       虽然人类外表的 2D 生成模型进展迅速,但许多应用程序需要可以动画和渲染的 3D 化身。不幸的是,大多数现有的学习具有不同形状和外观的 3D 人体生成模型的方法都需要 3D 训练数据,而这些数据有限且获取成本高昂。因此,进步的关键是从丰富的非结构化 2D 图像集合中学习 3D 化身的生成模型。然而,在这种欠约束的环境中学习真实和完整的 3D 外观和几何形状仍然具有挑战性,尤其是在存在宽松衣服(例如连衣裙)的情况下。在本文中,我们提出了一种新的来自 2D 图像的真实 3D 人的对抗生成模型。我们的方法通过采用整体 3D 生成器并集成高效灵活的关节模块来捕捉身体和宽松衣服的形状和变形。为了提高真实性,我们使用多个鉴别器训练我们的模型,同时还以预测的 2D 法线图的形式整合几何线索。我们通过实验发现,我们的方法在几何和外观方面优于以前的 3D 和关节感知方法。我们通过系统的消融研究验证了我们模型的有效性和每个组件的重要性。

2.Real-Time Radiance Fields for Single-Image Portrait View Synthesis(SIGGRAPH 2023)

d3c76d6bfd8df0c11135c226d81d078a.png

标题:用于单图像人像视图合成的实时辐射场

作者:Alex Trevithick, Matthew Chan, Michael Stengel, Eric R. Chan, Chao Liu, Zhiding Yu, Sameh Khamis, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano

文章链接:https://arxiv.org/abs/2305.02310

项目代码:https://research.nvidia.com/labs/nxp/lp3d/

e531058a796f31258c7c37fde0ab76ee.png

753c7a8d540595db3fe88e16220bffaf.png

摘要:

       我们提出了一种一次性方法,可以实时从单个未摆姿势的图像(例如人脸肖像)推断和渲染逼真的 3D 表示。给定单个 RGB 输入,我们的图像编码器直接预测神经辐射场的规范三平面表示,用于通过体积渲染进行 3D 感知的新视图合成。我们的方法在消费类硬件上速度很快(24 fps),并且比需要测试时间优化的强 GAN 反转基线产生更高质量的结果。为了训练我们的三平面编码器流水线,我们仅使用合成数据,展示了如何将知识从预训练的 3D GAN 提取到前馈编码器中。技术贡献包括基于 Vision Transformer 的三平面编码器、相机数据增强策略以及用于合成数据训练的精心设计的损失函数。我们以最先进的方法为基准,展示了在具有挑战性的现实世界环境中稳健性和图像质量的显着改进。我们展示了我们在人脸肖像 (FFHQ) 和猫 (AFHQ) 上的结果,但我们的算法也可以在未来应用于其他类别,并带有 3D 感知图像生成器。

3.Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings

a59ad8b1504ee54ff110d353b9bfb1f6.png

标题:视觉思维链:通过多模式填充弥合逻辑鸿沟

作者:Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei, Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang

文章链接:https://arxiv.org/abs/2305.02317

f5e6ae71283eca66a5c5d853aa6c4239.png

6892ad524d422d8680675739d1af0ab9.png

d5e888ca7551900a9d594aed3a441ef4.png

9669be1885db06049a0a27bc71af2a39.png

9a3a40b01169329b9b14742b88b5945b.png

1e2893b66767d033482d7289a43b5763.png

摘要:

       大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务。我们声称将视觉增强结合到推理中是必不可少的,尤其是对于复杂的、富有想象力的任务。因此,我们引入了 VCoT,这是一种利用思维链提示和视觉语言基础的新方法,以递归地弥合顺序数据中的逻辑差距。我们的方法使用视觉引导来生成合成的多模式填充,这些填充添加了一致的和新颖的信息,以减少可以从时间推理中受益的下游任务的逻辑差距,并为模型的多步推理提供可解释性。我们将 VCoT 应用于 Visual Storytelling 和 WikiHow 摘要数据集,并通过人工评估证明 VCoT 提供了新颖且一致的合成数据增强,击败了思想基线链,可用于增强下游性能。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
108 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.11
最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。
89 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
123 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
163 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
131 0
|
机器人
每日学术速递4.27
我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。
107 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递4.19
最近,基于端到端变压器的检测器 (DETR) 取得了显着的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用并阻止它们充分利用无后处理的好处,例如非最大抑制 (NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了端到端速度基准
159 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
105 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
98 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
143 0
下一篇
无影云桌面