每日学术速递3.29

简介: 在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.CC3D: Layout-Conditioned Generation of Compositional 3D Scenes


ab7aac87233ab2d1159234b0db9cdcdc.png


标题:CC3D:合成 3D 场景的布局条件生成

作者:Sherwin Bahmani, Jeong Joon Park, Despoina Paschalidou, Xingguang Yan, Gordon Wetzstein, Leonidas Guibas, Andrea Tagliasacchi

文章链接:https://arxiv.org/abs/2303.12074

项目代码:https://sherwinbahmani.github.io/cc3d/

032709f423b6d36a026adfd74777ec60.png

fefc4a177f95e3e2da071844dcaf224b.png

ab1a066390414d2f1020ccd1004f6ef3.png

74864672c05521a10cd6effb483d154f.png

摘要:

       在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。通过设计用于 3D 合成的基于 2D 布局的方法并实现具有更强几何归纳偏差的新 3D 场表示,我们创建了一个既高效又高质量的 3D GAN,同时允许更可控的生成过程。我们对合成 3D-FRONT 和真实世界 KITTI-360 数据集的评估表明,与之前的作品相比,我们的模型生成的场景具有更高的视觉和几何质量。

2.MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action

e6d517b5a41e49b0505c64e6c1bb8d33.png


标题:MM-REACT:提示 ChatGPT 进行多模态推理和行动

作者:Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Ehsan Azarnasab, Faisal Ahmed, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wangng

文章链接:https://arxiv.org/abs/2303.11381

项目代码:https://multimodal-react.github.io/

7854cb9d4fe7b2154e1042ff95aac3bb.png

b99153ddaa8cc254fb2fa8dfd18f0a39.png


摘要:

       我们提出 MM-REACT,这是一种将 ChatGPT 与视觉专家库集成以实现多模态推理和行动的系统范式。在本文中,我们定义并探索了一个完整的高级视觉任务列表,这些任务很有趣,但可能会超出现有视觉和视觉语言模型的能力。为了实现这种高级视觉智能,MM-REACT 引入了文本提示设计,可以表示文本描述、文本化空间坐标和对齐文件名,用于图像和视频等密集视觉信号。MM-REACT 的提示设计允许语言模型接受、关联和处理多模态信息,从而促进 ChatGPT 与各种视觉专家的协同结合。零样本实验证明了 MM-REACT 在解决特定兴趣能力方面的有效性及其在需要高级视觉理解的不同场景中的广泛应用。此外,我们讨论并比较了 MM-REACT 的系统范式与另一种方法,该方法通过联合微调为多模态场景扩展语言模型。此 https URL 提供代码、演示、视频和可视化

3.Vox-E: Text-guided Voxel Editing of 3D Objects

767b03a0630c2768252815b4b0626e91.png


标题:Vox-E:文本引导的 3D 对象体素编辑

作者:Etai Sella, Gal Fiebelman, Peter Hedman, Hadar Averbuch-Elor

文章链接:https://arxiv.org/abs/2303.12048

项目代码:https://tau-vailab.github.io/Vox-E/

c017d0f18e5720a123d2276ab338be2d.png

e00298d767b15ef1b3a22242fd3abe71.png

44fd03d19c1c3a914cfb71e6571966a2.png


摘要:

       大规模文本引导的扩散模型由于能够合成传达复杂视觉概念的各种图像的能力而获得了极大的关注。这种生成能力最近被用于执行文本到 3D 的合成。在这项工作中,我们提出了一种利用潜在扩散模型的力量来编辑现有 3D 对象的技术。我们的方法将 3D 对象的定向 2D 图像作为输入,并学习它的基于网格的体积表示。为了引导体积表示符合目标文本提示,我们遵循无条件文本到 3D 方法并优化分数蒸馏采样 (SDS) 损失。然而,我们观察到,将这种扩散引导的损失与基于图像的正则化损失相结合,鼓励表示不要过于偏离输入对象是具有挑战性的,因为它需要在仅查看结构和外观耦合的同时实现两个相互冲突的目标二维投影。因此,我们引入了一种直接在 3D 空间中运行的新型体积正则化损失,利用我们 3D 表示的明确性质来加强原始对象和编辑对象的全局结构之间的相关性。此外,我们提出了一种优化交叉注意力体积网格的技术,以优化编辑的空间范围。广泛的实验和比较证明了我们的方法在创建大量编辑方面的有效性,这是以前的作品无法实现的。

目录
相关文章
|
监控 网络协议 Unix
go程序报错Unix syslog delivery error
记录一下问题出错原因
3205 0
|
API
[已解决]openai.error.APIConnectionError: Error communicating with OpenAI: HTTPSConnectionPool(host=‘api
[已解决]openai.error.APIConnectionError: Error communicating with OpenAI: HTTPSConnectionPool(host=‘api
2612 0
|
机器学习/深度学习 自然语言处理 算法
面向电商家居行业3D室内场景合成中的空间感知(1)
面向电商家居行业3D室内场景合成中的空间感知
453 9
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口
智谱AI推出的GLM-4V-Flash是一款专注于图像理解的免费开放大模型,提供API接口支持用户上传图片URL或Base64编码图片获取详细的图像描述。该模型通过深度学习和卷积神经网络技术,简化了图像分析流程,提高了开发效率,适用于内容审核、辅助视障人士、社交媒体、教育和电子商务等多个应用场景。
3581 14
GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口
|
机器学习/深度学习 自然语言处理 PyTorch
多模态条件机制
多模态条件机制
697 0
|
应用服务中间件 nginx
一文搞定Nginx配置RTMP!
一文搞定Nginx配置RTMP!
1060 4
|
vr&ar 图形学
论文介绍:3D-SceneDreamer——基于文本驱动的3D场景生成技术
【5月更文挑战第2天】3D-SceneDreamer是一款文本驱动的3D场景生成工具,利用NeRF技术简化3D内容创作,通过文本描述创建室内及室外场景。该框架支持6-DOF摄像机轨迹,提高视角自由度。研究结合预训练的文本到图像模型解决3D数据稀缺问题,实现高质量、几何一致的场景生成。尽管面临文本描述精度和实际应用挑战,但该技术为3D场景生成带来显著进步。[论文链接](https://arxiv.org/pdf/2403.09439.pdf)
543 6
|
存储 JSON 数据可视化
Qt(C++)使用QChart动态显示3个设备的温度变化曲线
Qt的QChart是一个用于绘制图表和可视化数据的类。提供了一个灵活的、可扩展的、跨平台的图表绘制解决方案,可以用于各种应用程序,如数据分析、科学计算、金融交易等。
810 1
|
人工智能 决策智能 C++
【AI Agent教程】【MetaGPT】案例拆解:使用MetaGPT实现“狼人杀“游戏(1)- 整体框架解析
【AI Agent教程】【MetaGPT】案例拆解:使用MetaGPT实现“狼人杀“游戏(1)- 整体框架解析
1372 1
|
编解码 并行计算 算法
如何在 MATLAB 中进行图像分割(matlab仿真与图像处理系列第7期)
如何在 MATLAB 中进行图像分割(matlab仿真与图像处理系列第7期)