MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
简介: MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室联合推出的多视图扩散模型,专注于新视角合成(NVS)任务。该模型通过整合3D先验信息,显著提升了NVS的泛化和3D一致性,并能从单一图像生成多达100个新视图。此外,研究团队还推出了包含160万场景的大型多视图图像数据集MvD-1M,以支持模型的训练和优化。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多视图生成:从单一图像生成多达100个新视图,适用于多种NVS任务。
  2. 3D先验整合:通过度量深度和相机姿态的3D先验,确保3D结构的一致性。
  3. 大规模数据集支持:结合MvD-1M数据集,包含160万场景,提升模型表现。

正文

MVGenMaster 是什么

公众号: 蚝油菜花 - MVGenMaster

MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室共同推出的多视图扩散模型,专注于新视角合成(NVS)任务。该模型通过整合3D先验信息,显著提升了NVS的泛化和3D一致性。MVGenMaster能够从单一图像出发,通过单次前向传播生成多达100个新视图。

研究团队还推出了一个包含160万场景的大型多视图图像数据集MvD-1M,结合多项训练和模型优化技术,增强模型在大规模数据集上的表现。

MVGenMaster 的主要功能

  • 多视图生成:从单一图像或多个参考图像生成多达100个新视图,适用于不同的NVS任务,如单视图NVS、两视图插值和任意参考视图与目标视图的灵活NVS。
  • 3D先验整合:通过度量深度和相机姿态的3D先验,模型在2D扩散模型中保持了一致的3D结构。
  • 灵活性和泛化:模型设计灵活,能适应不同的视角和场景,展现出在多种场景下的泛化能力。
  • 高效前向过程:在单次前向过程中完成多视图的生成,无需复杂的迭代推理或数据集更新。
  • 大规模数据集支持:结合MvD-1M数据集,包含160万场景和对齐良好的度量深度。

MVGenMaster 的技术原理

  • 3D先验:MVGenMaster通过度量深度和相机姿态创建3D先验,3D先验在模型中被用来指导新视图的生成,确保3D结构的一致性。
  • 几何扭曲:基于几何扭曲函数,模型将参考视图的像素和规范坐标映射(CCM)从源视图扭曲到目标视图。
  • 多视图扩散模型(LDM):MVGenMaster基于潜在扩散模型(LDM),学习如何从参考图像和3D先验中合成目标视图的图像。
  • 注意力机制:模型使用全注意力机制,跨越所有参考和目标视图,捕获密集的相机姿态表示。
  • Plücker射线:使用Plücker射线表示相机姿态,为模型提供精确的相机位置和方向信息。
  • 关键重缩放技术:为处理极长序列的目标视图,MVGenMaster引入关键重缩放技术,增强参考视图的指导,平衡注意力稀释问题。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
11月前
|
人工智能
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型,能够自动生成高保真度的主播风格产品推广视频,通过整合人-物交互(HOI)技术,实现对物体外观和运动控制的高度还原。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法,为在线广告和消费者参与提供了新的可能性。
1569 31
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
|
11月前
|
机器学习/深度学习 缓存 JavaScript
简单粗暴的正则表达式笔记
简单粗暴的正则表达式笔记
235 25
|
11月前
|
存储 UED
「Mac畅玩鸿蒙与硬件37」UI互动应用篇14 - 随机颜色变化器
本篇将带你实现一个随机颜色变化器应用。用户点击“随机颜色”按钮后,界面背景会随机变化为淡色系颜色,同时显示当前的颜色代码,页面还会展示一只猫咪图片作为装饰,提升趣味性。
279 36
「Mac畅玩鸿蒙与硬件37」UI互动应用篇14 - 随机颜色变化器
|
机器学习/深度学习 自然语言处理 vr&ar
ICML 2024:复杂组合3D场景生成,LLMs对话式3D可控生成编辑框架来了
【8月更文挑战第24天】近年来,3D内容生成技术为虚拟现实和游戏领域带来革新,但仍面临处理复杂场景和多对象交互的挑战。为此,研究者提出了Layout-guided Gaussian Splatting (LGS)框架,结合大型语言模型(LLMs)和扩散模型,实现高质量3D场景生成。LGS通过LLMs提取文本描述中的实例关系并转化为布局,再使用扩散模型和自适应几何控制技术优化3D高斯表示,生成更准确、细腻的场景。实验表明,LGS在复杂场景生成方面表现优异,但计算成本和训练时间较长,且主要针对静态场景。论文详情参见:https://arxiv.org/pdf/2402.07207
391 3
|
11月前
|
人工智能 自然语言处理 开发者
Co-op Translator:微软推出面向开发者的开源多语言翻译工具
微软推出的开源多语言翻译工具Co-op Translator,基于Azure AI服务,能够自动化处理项目文档和图像中的文本翻译,简化技术文档的本地化流程,促进全球开发者协作。
351 25
Co-op Translator:微软推出面向开发者的开源多语言翻译工具
|
11月前
|
UED 开发者
「Mac畅玩鸿蒙与硬件36」UI互动应用篇13 - 数字滚动抽奖器
本篇将带你实现一个简单的数字滚动抽奖器。用户点击按钮后,屏幕上的数字会以滚动动画的形式随机变动,最终显示一个抽奖数字。这个项目展示了如何结合定时器、状态管理和动画实现一个有趣的互动应用。
244 23
「Mac畅玩鸿蒙与硬件36」UI互动应用篇13 - 数字滚动抽奖器
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
360Zhinao2-7B:360推出自研360智脑大模型的升级版
360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版,涵盖基础模型及多种上下文长度的聊天模型。该模型在语言理解与生成、聊天能力、数学逻辑推理等方面表现出色,支持多语言和多上下文长度,适用于多种商业应用场景。
441 23
360Zhinao2-7B:360推出自研360智脑大模型的升级版
|
11月前
|
机器学习/深度学习 自然语言处理 算法
通义灵码在金融与教育领域的应用
通义灵码在金融与教育领域的应用展现了其强大潜力。在金融行业,它通过优化风险评估、智能投顾及交易算法,提升业务效率与安全性;在教育领域,则通过个性化学习方案、智能化教学资源生成及编程教育辅助,革新教学方式,满足多样化需求,为行业注入新活力。
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
GLM-Edge:智谱开源的端侧大语言和多模态系列模型
GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,旨在实现模型性能、实机推理效果和落地便利性之间的最佳平衡。该系列模型支持在手机、车机和PC等端侧设备上高效运行,适用于智能助手、聊天机器人、图像标注等多种应用场景。
430 7
GLM-Edge:智谱开源的端侧大语言和多模态系列模型
|
11月前
|
机器学习/深度学习 人工智能 数据格式
Make-It-Animatable:中科大联合腾讯推出的自动生成即时动画准备资产
Make-It-Animatable是由中国科学技术大学和腾讯联合推出的数据驱动框架,能够在不到一秒内将任何3D人形模型转换为可用于动画的状态。该框架支持多种3D数据格式,并采用从粗到细的表示策略和结构感知建模,显著提升了动画准备的质量和速度。
219 7
Make-It-Animatable:中科大联合腾讯推出的自动生成即时动画准备资产

热门文章

最新文章