每日学术速递3.29

简介: 在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.CC3D: Layout-Conditioned Generation of Compositional 3D Scenes


ab7aac87233ab2d1159234b0db9cdcdc.png


标题:CC3D:合成 3D 场景的布局条件生成

作者:Sherwin Bahmani, Jeong Joon Park, Despoina Paschalidou, Xingguang Yan, Gordon Wetzstein, Leonidas Guibas, Andrea Tagliasacchi

文章链接:https://arxiv.org/abs/2303.12074

项目代码:https://sherwinbahmani.github.io/cc3d/

032709f423b6d36a026adfd74777ec60.png

fefc4a177f95e3e2da071844dcaf224b.png

ab1a066390414d2f1020ccd1004f6ef3.png

74864672c05521a10cd6effb483d154f.png

摘要:

       在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。通过设计用于 3D 合成的基于 2D 布局的方法并实现具有更强几何归纳偏差的新 3D 场表示,我们创建了一个既高效又高质量的 3D GAN,同时允许更可控的生成过程。我们对合成 3D-FRONT 和真实世界 KITTI-360 数据集的评估表明,与之前的作品相比,我们的模型生成的场景具有更高的视觉和几何质量。

2.MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action

e6d517b5a41e49b0505c64e6c1bb8d33.png


标题:MM-REACT:提示 ChatGPT 进行多模态推理和行动

作者:Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Ehsan Azarnasab, Faisal Ahmed, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wangng

文章链接:https://arxiv.org/abs/2303.11381

项目代码:https://multimodal-react.github.io/

7854cb9d4fe7b2154e1042ff95aac3bb.png

b99153ddaa8cc254fb2fa8dfd18f0a39.png


摘要:

       我们提出 MM-REACT,这是一种将 ChatGPT 与视觉专家库集成以实现多模态推理和行动的系统范式。在本文中,我们定义并探索了一个完整的高级视觉任务列表,这些任务很有趣,但可能会超出现有视觉和视觉语言模型的能力。为了实现这种高级视觉智能,MM-REACT 引入了文本提示设计,可以表示文本描述、文本化空间坐标和对齐文件名,用于图像和视频等密集视觉信号。MM-REACT 的提示设计允许语言模型接受、关联和处理多模态信息,从而促进 ChatGPT 与各种视觉专家的协同结合。零样本实验证明了 MM-REACT 在解决特定兴趣能力方面的有效性及其在需要高级视觉理解的不同场景中的广泛应用。此外,我们讨论并比较了 MM-REACT 的系统范式与另一种方法,该方法通过联合微调为多模态场景扩展语言模型。此 https URL 提供代码、演示、视频和可视化

3.Vox-E: Text-guided Voxel Editing of 3D Objects

767b03a0630c2768252815b4b0626e91.png


标题:Vox-E:文本引导的 3D 对象体素编辑

作者:Etai Sella, Gal Fiebelman, Peter Hedman, Hadar Averbuch-Elor

文章链接:https://arxiv.org/abs/2303.12048

项目代码:https://tau-vailab.github.io/Vox-E/

c017d0f18e5720a123d2276ab338be2d.png

e00298d767b15ef1b3a22242fd3abe71.png

44fd03d19c1c3a914cfb71e6571966a2.png


摘要:

       大规模文本引导的扩散模型由于能够合成传达复杂视觉概念的各种图像的能力而获得了极大的关注。这种生成能力最近被用于执行文本到 3D 的合成。在这项工作中,我们提出了一种利用潜在扩散模型的力量来编辑现有 3D 对象的技术。我们的方法将 3D 对象的定向 2D 图像作为输入,并学习它的基于网格的体积表示。为了引导体积表示符合目标文本提示,我们遵循无条件文本到 3D 方法并优化分数蒸馏采样 (SDS) 损失。然而,我们观察到,将这种扩散引导的损失与基于图像的正则化损失相结合,鼓励表示不要过于偏离输入对象是具有挑战性的,因为它需要在仅查看结构和外观耦合的同时实现两个相互冲突的目标二维投影。因此,我们引入了一种直接在 3D 空间中运行的新型体积正则化损失,利用我们 3D 表示的明确性质来加强原始对象和编辑对象的全局结构之间的相关性。此外,我们提出了一种优化交叉注意力体积网格的技术,以优化编辑的空间范围。广泛的实验和比较证明了我们的方法在创建大量编辑方面的有效性,这是以前的作品无法实现的。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
117 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
116 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
112 0
|
机器人
每日学术速递4.27
我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。
118 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
120 0
|
传感器 机器学习/深度学习 自然语言处理
每日学术速递2.22
时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。
122 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
160 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
142 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
158 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
122 0

热门文章

最新文章