MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室联合推出的多视图扩散模型,专注于新视角合成(NVS)任务。该模型通过整合3D先验信息,显著提升了NVS的泛化和3D一致性,并能从单一图像生成多达100个新视图。此外,研究团队还推出了包含160万场景的大型多视图图像数据集MvD-1M,以支持模型的训练和优化。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多视图生成:从单一图像生成多达100个新视图,适用于多种NVS任务。
  2. 3D先验整合:通过度量深度和相机姿态的3D先验,确保3D结构的一致性。
  3. 大规模数据集支持:结合MvD-1M数据集,包含160万场景,提升模型表现。

正文

MVGenMaster 是什么

公众号: 蚝油菜花 - MVGenMaster

MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室共同推出的多视图扩散模型,专注于新视角合成(NVS)任务。该模型通过整合3D先验信息,显著提升了NVS的泛化和3D一致性。MVGenMaster能够从单一图像出发,通过单次前向传播生成多达100个新视图。

研究团队还推出了一个包含160万场景的大型多视图图像数据集MvD-1M,结合多项训练和模型优化技术,增强模型在大规模数据集上的表现。

MVGenMaster 的主要功能

  • 多视图生成:从单一图像或多个参考图像生成多达100个新视图,适用于不同的NVS任务,如单视图NVS、两视图插值和任意参考视图与目标视图的灵活NVS。
  • 3D先验整合:通过度量深度和相机姿态的3D先验,模型在2D扩散模型中保持了一致的3D结构。
  • 灵活性和泛化:模型设计灵活,能适应不同的视角和场景,展现出在多种场景下的泛化能力。
  • 高效前向过程:在单次前向过程中完成多视图的生成,无需复杂的迭代推理或数据集更新。
  • 大规模数据集支持:结合MvD-1M数据集,包含160万场景和对齐良好的度量深度。

MVGenMaster 的技术原理

  • 3D先验:MVGenMaster通过度量深度和相机姿态创建3D先验,3D先验在模型中被用来指导新视图的生成,确保3D结构的一致性。
  • 几何扭曲:基于几何扭曲函数,模型将参考视图的像素和规范坐标映射(CCM)从源视图扭曲到目标视图。
  • 多视图扩散模型(LDM):MVGenMaster基于潜在扩散模型(LDM),学习如何从参考图像和3D先验中合成目标视图的图像。
  • 注意力机制:模型使用全注意力机制,跨越所有参考和目标视图,捕获密集的相机姿态表示。
  • Plücker射线:使用Plücker射线表示相机姿态,为模型提供精确的相机位置和方向信息。
  • 关键重缩放技术:为处理极长序列的目标视图,MVGenMaster引入关键重缩放技术,增强参考视图的指导,平衡注意力稀释问题。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
人工智能
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型,能够自动生成高保真度的主播风格产品推广视频,通过整合人-物交互(HOI)技术,实现对物体外观和运动控制的高度还原。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法,为在线广告和消费者参与提供了新的可能性。
194 30
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
|
8月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。
|
1月前
|
机器学习/深度学习 缓存 JavaScript
简单粗暴的正则表达式笔记
简单粗暴的正则表达式笔记
99 25
|
2月前
|
人工智能 监控 机器人
阿里云开发者社区博文规范及指引
阿里云开发者社区博文规范及指引
753 13
阿里云开发者社区博文规范及指引
|
1月前
|
弹性计算 关系型数据库 测试技术
RDS通用云盘核心能力
本次实验主要体验RDS通用云盘的三项核心能力:IO加速、IO突发和数据归档。首先创建实验资源,包括RDS MySQL实例和ECS实例,耗时约5分钟。接着通过sysbench导入数据并配置安全设置。 在体验阶段,我们对比了开启和关闭IO加速及IO突发功能对RDS性能的影响,观察到QPS有显著差异。最后,通过将数据从云盘迁移到OSS中,展示了冷存层的数据归档功能,并进行RDS硬盘缩容,验证了其成本优势。整个实验过程详细记录了每一步操作,确保用户能直观感受到RDS通用云盘带来的性能提升和成本优化。
110 41
RDS通用云盘核心能力
|
1月前
|
人工智能 测试技术 API
FlagEvalMM:智源开源的多模态模型评测框架
FlagEvalMM 是由北京智源人工智能研究院开源的多模态模型评测框架,旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标,采用评测与模型推理解耦的设计,提升评测效率,便于快速适配新任务和模型。
82 11
FlagEvalMM:智源开源的多模态模型评测框架
|
1月前
|
人工智能 API 开发者
用 OpenVINO™ 部署 GLM-Edge 全家桶
11月29日,智谱发布了GLM-Edge系列模型,包括GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B、GLM-Edge-V-5B,适用于手机、车机及PC平台。文章介绍了如何使用OpenVINO™工具套件在本地部署这些模型,实现高效的AI任务处理,如聊天与图像理解。提供了详细的环境配置、模型转换与量化、以及具体的应用示例。
|
1月前
|
IDE Ubuntu 开发工具
2025年vscode (visual studio code)国内高速下载加速镜像,极速秒下!
Visual Studio Code(简称VSCode)是一款由微软开发的轻量级IDE,支持多种操作系统,以其高效、跨平台和免费的特点受到广泛欢迎。针对国内用户下载速度慢的问题,终于有了国内镜像,访问 https://www.baihezi.com/vscode/download
281 10
2025年vscode (visual studio code)国内高速下载加速镜像,极速秒下!
|
1月前
|
存储 监控 C++
11 个必备 Docker 工具
11 个必备 Docker 工具
450 11
11 个必备 Docker 工具
|
1月前
|
Web App开发 机器学习/深度学习 人工智能
Magic Copy:开源的 AI 抠图工具,在浏览器中自动识别图像进行抠图
Magic Copy 是一款开源的 AI 抠图工具,支持 Chrome 浏览器扩展。它基于 Meta 的 Segment Anything Model 技术,能够自动识别图像中的前景对象并提取出来,简化用户从图片中提取特定元素的过程,提高工作效率。
109 7
Magic Copy:开源的 AI 抠图工具,在浏览器中自动识别图像进行抠图

热门文章

最新文章