CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.CC3D: Layout-Conditioned Generation of Compositional 3D Scenes
标题:CC3D:合成 3D 场景的布局条件生成
作者:Sherwin Bahmani, Jeong Joon Park, Despoina Paschalidou, Xingguang Yan, Gordon Wetzstein, Leonidas Guibas, Andrea Tagliasacchi
文章链接:https://arxiv.org/abs/2303.12074
项目代码:https://sherwinbahmani.github.io/cc3d/
摘要:
在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。通过设计用于 3D 合成的基于 2D 布局的方法并实现具有更强几何归纳偏差的新 3D 场表示,我们创建了一个既高效又高质量的 3D GAN,同时允许更可控的生成过程。我们对合成 3D-FRONT 和真实世界 KITTI-360 数据集的评估表明,与之前的作品相比,我们的模型生成的场景具有更高的视觉和几何质量。
2.MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action
标题:MM-REACT:提示 ChatGPT 进行多模态推理和行动
作者:Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Ehsan Azarnasab, Faisal Ahmed, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wangng
文章链接:https://arxiv.org/abs/2303.11381
项目代码:https://multimodal-react.github.io/
摘要:
我们提出 MM-REACT,这是一种将 ChatGPT 与视觉专家库集成以实现多模态推理和行动的系统范式。在本文中,我们定义并探索了一个完整的高级视觉任务列表,这些任务很有趣,但可能会超出现有视觉和视觉语言模型的能力。为了实现这种高级视觉智能,MM-REACT 引入了文本提示设计,可以表示文本描述、文本化空间坐标和对齐文件名,用于图像和视频等密集视觉信号。MM-REACT 的提示设计允许语言模型接受、关联和处理多模态信息,从而促进 ChatGPT 与各种视觉专家的协同结合。零样本实验证明了 MM-REACT 在解决特定兴趣能力方面的有效性及其在需要高级视觉理解的不同场景中的广泛应用。此外,我们讨论并比较了 MM-REACT 的系统范式与另一种方法,该方法通过联合微调为多模态场景扩展语言模型。此 https URL 提供代码、演示、视频和可视化
3.Vox-E: Text-guided Voxel Editing of 3D Objects
标题:Vox-E:文本引导的 3D 对象体素编辑
作者:Etai Sella, Gal Fiebelman, Peter Hedman, Hadar Averbuch-Elor
文章链接:https://arxiv.org/abs/2303.12048
项目代码:https://tau-vailab.github.io/Vox-E/
摘要:
大规模文本引导的扩散模型由于能够合成传达复杂视觉概念的各种图像的能力而获得了极大的关注。这种生成能力最近被用于执行文本到 3D 的合成。在这项工作中,我们提出了一种利用潜在扩散模型的力量来编辑现有 3D 对象的技术。我们的方法将 3D 对象的定向 2D 图像作为输入,并学习它的基于网格的体积表示。为了引导体积表示符合目标文本提示,我们遵循无条件文本到 3D 方法并优化分数蒸馏采样 (SDS) 损失。然而,我们观察到,将这种扩散引导的损失与基于图像的正则化损失相结合,鼓励表示不要过于偏离输入对象是具有挑战性的,因为它需要在仅查看结构和外观耦合的同时实现两个相互冲突的目标二维投影。因此,我们引入了一种直接在 3D 空间中运行的新型体积正则化损失,利用我们 3D 表示的明确性质来加强原始对象和编辑对象的全局结构之间的相关性。此外,我们提出了一种优化交叉注意力体积网格的技术,以优化编辑的空间范围。广泛的实验和比较证明了我们的方法在创建大量编辑方面的有效性,这是以前的作品无法实现的。