MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多视图图像生成:支持生成768分辨率的多视角一致图像。
  2. 适配定制模型:完美适配多种文本到图像模型和插件。
  3. 3D模型重建:支持从文本和图像生成多视图图像并重建3D模型。

正文(附运行示例)

MV-Adapter 是什么

公众号: 蚝油菜花 - MV-Adapter

MV-Adapter是由北京航空航天大学、VAST和上海交通大学的研究团队推出的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,无需改变原始网络结构或特征空间。

MV-Adapter基于创新的注意力架构和统一条件编码器,高效地建模多视图一致性和参考图像的相关性,支持生成高分辨率的多视角图像,并能适配多种定制模型和插件,实现广泛的应用场景。

MV-Adapter 的主要功能

  • 多视图图像生成:支持生成768分辨率的多视角一致图像。
  • 适配定制模型:完美适配定制的文本到图像模型、潜在一致性模型(LCM)、ControlNet插件等。
  • 3D模型重建:支持从文本和图像生成多视图图像,并重建3D模型。
  • 高质量3D贴图:用已知几何引导生成高质量的3D贴图。
  • 任意视角生成:能扩展至从任意视点生成图像,支持更广泛的下游任务。

MV-Adapter 的技术原理

  • 通用条件引导器:设计通用的条件引导器,编码相机和几何信息,为文本到图像模型提供不同类型的引导。
  • 解耦的注意力层:推出一种解耦的注意力机制,避免对基础模型的侵入性修改。
  • 并行注意力架构:将多视角注意力层与图像交叉注意力层并行添加,确保新引入的注意力层与预训练的自注意力层共享输入特征。
  • 多视角注意力机制:根据不同的应用需求,设计多种多视角注意力策略。
  • 图像交叉注意力机制:推出一种创新的图像交叉注意力机制,充分利用参考图像的细节信息。

如何运行 MV-Adapter

安装

首先克隆仓库:

git clone https://github.com/huanngzh/MV-Adapter.git
cd MV-Adapter
AI 代码解读

(可选)创建一个新的conda环境:

conda create -n mvadapter python=3.10
conda activate mvadapter
AI 代码解读

安装必要的包(需要torch > 2):

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
AI 代码解读

运行示例

文本到多视图生成

使用SDXL模型:

python -m scripts.gradio_demo_t2mv --base_model "stabilityai/stable-diffusion-xl-base-1.0"
AI 代码解读

使用动漫风格的模型:

python -m scripts.gradio_demo_t2mv --base_model "cagliostrolab/animagine-xl-3.1"
AI 代码解读

图像到多视图生成

使用SDXL模型:

python -m scripts.gradio_demo_i2mv
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

目录
打赏
0
18
18
3
320
分享
相关文章
扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!
Meissonic是一种新型图像生成模型,采用非自回归的掩码图像建模(MIM)方法,在性能和效率上超越了当前最先进的扩散模型SDXL。其创新点包括改进的注意力机制、多尺度特征提取、先进位置编码策略和优化采样条件等,能够生成高质量、高分辨率图像。此外,Meissonic引入人类偏好评分和特征压缩层,提升图像质量和计算效率。尽管存在一些挑战,Meissonic为统一语言-视觉模型的发展提供了新思路,并在创意设计、虚拟现实等领域展现出广泛应用前景。
81 24
NeurIPS 2024:FaceChain团队新作,开源拓扑对齐人脸表征模型TopoFR
在2024年NeurIPS会议上,FaceChain团队推出TopoFR模型,通过利用数据的拓扑结构信息,显著提升了人脸识别的准确性。TopoFR采用PTSA策略和SDE策略,分别增强了模型的泛化能力和对硬样本的处理效果。实验结果显示,TopoFR在多个基准测试中表现优异,特别是在IJB-C和IJB-B等高难度测试中,显著超越了现有方法。
131 5
CVPR 2024:给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源
【6月更文挑战第28天】CVPR 2024亮点:SAX-NeRF框架开源!融合X光与NeRF,提升3D重建效果。X3D数据集验证,Lineformer+MLG策略揭示物体内部结构,增强几何理解。虽有计算成本及泛化挑战,但为计算机视觉和医学影像开辟新路径。[论文链接](https://arxiv.org/abs/2311.10959)**
269 5
大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络
大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络
527 0
ELITE项目原作解读:基于扩散模型的快速定制化图像生成
ELITE项目原作解读:基于扩散模型的快速定制化图像生成
170 0
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天(1)
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
178 0

热门文章

最新文章