文本直接生成多视角3D图像，Meta推出创新模型-阿里云开发者社区

文本直接生成多视角3D图像，Meta推出创新模型

2024-04-18 98

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第18天】Meta's ViewDiff模型创新性地从文本或图像生成多视角一致的3D图像，提供新途径生成3D资产和高质量2D内容。利用预训练文本到图像模型，结合3D体积渲染和跨帧注意力层，实现真实感更强的多视角图像。自回归生成方案允许一次性渲染多个视角图像，提升3D内容创作效率。虽然存在视角不一致性和局限性，但ViewDiff在视觉质量和一致性上超过现有方法，为3D内容创作开辟新方向。

随着人工智能技术的飞速发展，3D内容的生成和应用已经成为研究的热点。近期，Meta公司推出了一种名为ViewDiff 的创新模型，该模型能够直接从文本描述或已有的图像中生成多视角一致的3D图像。这一技术的出现，不仅为3D资产的生成提供了新的可能性，也为高质量的2D内容创作带来了新的突破。

ViewDiff 模型的核心在于其对预训练文本到图像模型的巧妙利用。传统的文本到3D的方法往往依赖于优化问题或在合成数据上进行微调，但这样的结果往往缺乏真实感。而ViewDiff 通过整合3D体积渲染和跨帧注意力层，使得在单一去噪过程中就能从真实世界数据中生成多视角图像。这种方法的优势在于，它不仅能够生成具有各种高质量形状和纹理的实例，而且能够在真实环境中保持一致性。

ViewDiff 模型的另一个亮点是其自回归生成方案，它能够在任何新的视点上渲染3D一致的图像。这意味着，只要给定一个文本描述或者一个物体的图像，模型就能一次性生成多个视角下的图像。这种能力对于3D内容的创作和应用来说，无疑是一个巨大的进步。

在实际应用中，ViewDiff 模型展现出了令人印象深刻的表现。它不仅在视觉上保持了与真实图像的高一致性，而且在形状和纹理的细节上也表现出了较高的质量。与现有的方法相比，ViewDiff 生成的结果在视觉质量上有了显著提升，这一点从其在FID（Fréchet Inception Distance）和KID（Kernel Inception Distance）两个指标上的降低就可以看出。

然而，ViewDiff 模型并非没有局限性。在某些情况下，生成的图像可能会出现轻微的不一致性，例如在不同视角下的清晰度和光照变化。这可能是由于模型在真实世界数据集上进行微调时，学习到了一些视角依赖的效果。为了解决这一问题，研究者们提出了通过添加光照条件控制来改进模型。

此外，ViewDiff 模型目前主要集中在物体的生成上，而对于大规模场景的生成还有待进一步探索。尽管如此，ViewDiff 的出现无疑为3D内容的创作和应用开辟了新的道路。它的成功不仅体现在技术上的创新，更在于其对现有技术的拓展和应用。

论文地址：https://arxiv.org/abs/2403.01807