ICML 2024：复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了-阿里云开发者社区

ICML 2024：复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

2024-08-24 137

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第24天】近年来，3D内容生成技术为虚拟现实和游戏领域带来革新，但仍面临处理复杂场景和多对象交互的挑战。为此，研究者提出了Layout-guided Gaussian Splatting (LGS)框架，结合大型语言模型(LLMs)和扩散模型，实现高质量3D场景生成。LGS通过LLMs提取文本描述中的实例关系并转化为布局，再使用扩散模型和自适应几何控制技术优化3D高斯表示，生成更准确、细腻的场景。实验表明，LGS在复杂场景生成方面表现优异，但计算成本和训练时间较长，且主要针对静态场景。论文详情参见：https://arxiv.org/pdf/2402.07207

近年来，3D内容生成技术取得了显著进展，为虚拟现实、游戏开发和设计等领域带来了革命性的变化。然而，现有的3D生成模型在处理复杂场景和多对象交互方面仍存在挑战。为了解决这些问题，研究人员提出了一种名为Layout-guided Gaussian Splatting（LGS）的新型3D生成框架，该框架利用大型语言模型（LLMs）和扩散模型，实现了高质量、可控的3D场景生成和编辑。

3D内容生成一直是一个具有挑战性的任务，尤其是在生成复杂场景和多对象交互方面。现有的3D生成模型通常采用隐式表示方法，如NeRF，但这些方法在处理复杂场景时容易出现几何失真、纹理模糊和内容漂移等问题。此外，现有的3D生成模型通常需要手动设计布局，这对于普通用户来说是不友好的，并且限制了生成场景的多样性。

为了解决这些问题，研究人员提出了一种名为Layout-guided Gaussian Splatting（LGS）的新型3D生成框架。LGS框架利用大型语言模型（LLMs）来提取文本描述中的实例关系，并将其转化为粗略的布局。然后，利用扩散模型和自适应几何控制技术，优化布局引导的3D高斯表示，以生成高质量的3D场景。

LGS框架的一个关键创新是利用LLMs来提取文本描述中的实例关系，并将其转化为粗略的布局。LLMs具有强大的语言理解和关系提取能力，可以更高效、更准确地提取文本描述中的信息。通过将LLMs与3D生成模型相结合，LGS框架可以更准确地理解用户的需求，并生成更符合用户期望的3D场景。

LGS框架还引入了自适应几何控制技术，以优化布局引导的3D高斯表示。自适应几何控制技术可以自适应地优化高斯的几何形状和空间分布，使生成的3D场景具有更准确的几何形状和更丰富的纹理细节。

LGS框架还利用扩散模型来优化布局引导的3D高斯表示。扩散模型是一种基于概率模型的生成模型，可以生成高质量的图像和3D模型。通过将扩散模型与3D高斯表示相结合，LGS框架可以生成更真实、更多样化的3D场景。

研究人员对LGS框架进行了广泛的实验评估，并与现有的3D生成模型进行了比较。实验结果表明，LGS框架在生成复杂场景和多对象交互方面具有显著的优势。与现有的3D生成模型相比，LGS框架可以生成更准确的几何形状、更丰富的纹理细节和更真实的场景效果。

然而，LGS框架也存在一些局限性。首先，由于需要利用LLMs来提取文本描述中的实例关系，LGS框架的计算成本相对较高。其次，由于需要优化布局引导的3D高斯表示，LGS框架的训练时间相对较长。此外，LGS框架目前还主要关注于静态场景的生成，对于动态场景的生成还存在挑战。

论文链接：https://arxiv.org/pdf/2402.07207

ICML 2024：复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

ICML 2024：复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

热门文章

最新文章

相关课程

相关电子书

相关实验场景