ICML 2024:复杂组合3D场景生成,LLMs对话式3D可控生成编辑框架来了

简介: 【8月更文挑战第24天】近年来,3D内容生成技术为虚拟现实和游戏领域带来革新,但仍面临处理复杂场景和多对象交互的挑战。为此,研究者提出了Layout-guided Gaussian Splatting (LGS)框架,结合大型语言模型(LLMs)和扩散模型,实现高质量3D场景生成。LGS通过LLMs提取文本描述中的实例关系并转化为布局,再使用扩散模型和自适应几何控制技术优化3D高斯表示,生成更准确、细腻的场景。实验表明,LGS在复杂场景生成方面表现优异,但计算成本和训练时间较长,且主要针对静态场景。论文详情参见:https://arxiv.org/pdf/2402.07207

近年来,3D内容生成技术取得了显著进展,为虚拟现实、游戏开发和设计等领域带来了革命性的变化。然而,现有的3D生成模型在处理复杂场景和多对象交互方面仍存在挑战。为了解决这些问题,研究人员提出了一种名为Layout-guided Gaussian Splatting(LGS)的新型3D生成框架,该框架利用大型语言模型(LLMs)和扩散模型,实现了高质量、可控的3D场景生成和编辑。

3D内容生成一直是一个具有挑战性的任务,尤其是在生成复杂场景和多对象交互方面。现有的3D生成模型通常采用隐式表示方法,如NeRF,但这些方法在处理复杂场景时容易出现几何失真、纹理模糊和内容漂移等问题。此外,现有的3D生成模型通常需要手动设计布局,这对于普通用户来说是不友好的,并且限制了生成场景的多样性。

为了解决这些问题,研究人员提出了一种名为Layout-guided Gaussian Splatting(LGS)的新型3D生成框架。LGS框架利用大型语言模型(LLMs)来提取文本描述中的实例关系,并将其转化为粗略的布局。然后,利用扩散模型和自适应几何控制技术,优化布局引导的3D高斯表示,以生成高质量的3D场景。

LGS框架的一个关键创新是利用LLMs来提取文本描述中的实例关系,并将其转化为粗略的布局。LLMs具有强大的语言理解和关系提取能力,可以更高效、更准确地提取文本描述中的信息。通过将LLMs与3D生成模型相结合,LGS框架可以更准确地理解用户的需求,并生成更符合用户期望的3D场景。

LGS框架还引入了自适应几何控制技术,以优化布局引导的3D高斯表示。自适应几何控制技术可以自适应地优化高斯的几何形状和空间分布,使生成的3D场景具有更准确的几何形状和更丰富的纹理细节。

LGS框架还利用扩散模型来优化布局引导的3D高斯表示。扩散模型是一种基于概率模型的生成模型,可以生成高质量的图像和3D模型。通过将扩散模型与3D高斯表示相结合,LGS框架可以生成更真实、更多样化的3D场景。

研究人员对LGS框架进行了广泛的实验评估,并与现有的3D生成模型进行了比较。实验结果表明,LGS框架在生成复杂场景和多对象交互方面具有显著的优势。与现有的3D生成模型相比,LGS框架可以生成更准确的几何形状、更丰富的纹理细节和更真实的场景效果。

然而,LGS框架也存在一些局限性。首先,由于需要利用LLMs来提取文本描述中的实例关系,LGS框架的计算成本相对较高。其次,由于需要优化布局引导的3D高斯表示,LGS框架的训练时间相对较长。此外,LGS框架目前还主要关注于静态场景的生成,对于动态场景的生成还存在挑战。

论文链接:https://arxiv.org/pdf/2402.07207

目录
相关文章
|
编解码 移动开发 缓存
HTML5网页3D场景制作之Three.js初体验-制作3D字体
WebGL(图形库是一个JavaScript API)在任何连接的WebGL中渲染图形的API,Web3D和Web3D的图形应用程序,可以单独使用一个WebGL通过引入与OpenGL 2.0一致的浏览器来使用WebGL 2.0 WebGL完美地解决了现有的Web交互式三维动画的两个问题: 第一,它通过HTML脚本本身实现Web交互式三维动画的制作,无需任何浏览器插件的支持; 第二,它利用底层的图形硬件加速功能进行的图形渲染,是通过统一的、标准的、跨平台的OpenGL接口实现的。
602 1
|
6月前
|
存储 编解码 安全
带三维重建和还原的PACS源码 医学影像PACS系统源码
带三维重建和还原的PACS源码 医学影像PACS系统源码 PACS及影像存取与传输系统”( Picture Archiving and Communication System),为以实现医学影像数字化存储、诊断为核心任务,从医学影像设备(如CT、CR、DR、MR、DSA、RF等)获取影像,集中存储、综合管理医学影像及病人相关信息,建立数字化工作流程。系统可实现检查预约、病人信息登记、计算机阅片、电子报告书写、胶片打印、数据备份等一系列满足影像科室日常工作的功能,并且由于影像数字化存储,用户可利用影像处理与测量技术辅助诊断、方便快捷地查找资料或利用网络将资料传输至临床科室,还可与医院HIS、L
88 0
|
6月前
|
存储 数据采集 固态存储
带三维重建和还原功能的医学影像管理系统(pacs)源码
带三维重建和还原功能的医学影像管理系统(pacs)源码
105 0
|
6月前
|
存储 数据可视化 vr&ar
突破传统 重新定义:3D医学影像PACS系统源码(包含RIS放射信息) 实现三维重建与还原
突破传统,重新定义PACS/RIS服务,洞察用户需求,关注应用场景,新一代PACS/RIS系统,系统顶层设计采用集中+分布式架构,满足医院影像全流程业务运行,同时各模块均可独立部署,满足医院未来影像信息化扩展新需求、感受新时代影像服务便捷性、易用性!系统基于平台化设计,与第三方服务自然接入无压力,从功能多样化到调阅速度快;覆盖(放射、超声、内镜、病理、核医学、心血管、临床科室等,是以影像采集、传输、存储、诊断、报告书写和科室管理)为核心应用的模块化PACS/RIS系统,实现了全院级影像信息的合理共享与应用。
120 0
突破传统 重新定义:3D医学影像PACS系统源码(包含RIS放射信息) 实现三维重建与还原
|
6月前
|
存储 数据采集 编解码
【PACS】医学影像管理系统源码带三维重建后处理技术
【PACS】医学影像管理系统源码带三维重建后处理技术
116 0
|
6月前
|
C++
【C++医学影像PACS】CT检查中的三维重建是什么检查?
【C++医学影像PACS】CT检查中的三维重建是什么检查?
163 0
|
存储 数据库 数据安全/隐私保护
基于C++开发,支持三维重建,多平面重建技术的医学影像PACS系统源码
支持非DICOM标准的影像设备的图像采集和处理。 3)支持各种扫描仪、数码相机等影像输入设备。 4)支持各大主流厂商的CT、MR、DSA、ECT、US、数字胃肠、内镜等影像设备; 5)支持所有的DICOM相机,支持各大厂家的激光相机。 6)系统完全支持HL7接口和ICD—10编码,可与HIS系统无缝连接。 7)提供全院级、科室级工作站以及远程会诊工作站,三维重建,多平面重建。
162 0
基于C++开发,支持三维重建,多平面重建技术的医学影像PACS系统源码
|
6月前
|
数据采集 存储 数据可视化
医院影像PACS系统三维重建技术(获取数据、预处理、重建)
开放式体系结构,完全符合DICOM3.0标准,提供HL7标准接口,可实现与提供相应标准接口的HIS系统以及其他医学信息系统间的数据通信。
231 3
|
6月前
|
存储 编解码 监控
【C++】医学影像PACS三维重建后处理系统源码
系统完全符合国际标准的DICOM3.0标准
76 2
|
6月前
|
存储
医院PACS系统全套源码 强大的三维重建功能
对非DICOM影像,如超声、病理、心电图等进行了集成,做到了可以同时处理DICOM标准图像和非DICOM图像。
57 1

热门文章

最新文章