MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多视图图像生成:支持生成768分辨率的多视角一致图像。
  2. 适配定制模型:完美适配多种文本到图像模型和插件。
  3. 3D模型重建:支持从文本和图像生成多视图图像并重建3D模型。

正文(附运行示例)

MV-Adapter 是什么

公众号: 蚝油菜花 - MV-Adapter

MV-Adapter是由北京航空航天大学、VAST和上海交通大学的研究团队推出的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,无需改变原始网络结构或特征空间。

MV-Adapter基于创新的注意力架构和统一条件编码器,高效地建模多视图一致性和参考图像的相关性,支持生成高分辨率的多视角图像,并能适配多种定制模型和插件,实现广泛的应用场景。

MV-Adapter 的主要功能

  • 多视图图像生成:支持生成768分辨率的多视角一致图像。
  • 适配定制模型:完美适配定制的文本到图像模型、潜在一致性模型(LCM)、ControlNet插件等。
  • 3D模型重建:支持从文本和图像生成多视图图像,并重建3D模型。
  • 高质量3D贴图:用已知几何引导生成高质量的3D贴图。
  • 任意视角生成:能扩展至从任意视点生成图像,支持更广泛的下游任务。

MV-Adapter 的技术原理

  • 通用条件引导器:设计通用的条件引导器,编码相机和几何信息,为文本到图像模型提供不同类型的引导。
  • 解耦的注意力层:推出一种解耦的注意力机制,避免对基础模型的侵入性修改。
  • 并行注意力架构:将多视角注意力层与图像交叉注意力层并行添加,确保新引入的注意力层与预训练的自注意力层共享输入特征。
  • 多视角注意力机制:根据不同的应用需求,设计多种多视角注意力策略。
  • 图像交叉注意力机制:推出一种创新的图像交叉注意力机制,充分利用参考图像的细节信息。

如何运行 MV-Adapter

安装

首先克隆仓库:

git clone https://github.com/huanngzh/MV-Adapter.git
cd MV-Adapter

(可选)创建一个新的conda环境:

conda create -n mvadapter python=3.10
conda activate mvadapter

安装必要的包(需要torch > 2):

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt

运行示例

文本到多视图生成

使用SDXL模型:

python -m scripts.gradio_demo_t2mv --base_model "stabilityai/stable-diffusion-xl-base-1.0"

使用动漫风格的模型:

python -m scripts.gradio_demo_t2mv --base_model "cagliostrolab/animagine-xl-3.1"

图像到多视图生成

使用SDXL模型:

python -m scripts.gradio_demo_i2mv

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
数据采集 存储 人工智能
TripoSR开源!从单个图像快速生成 3D 对象!(附魔搭社区推理实战教程)
近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。
|
机器学习/深度学习 编解码 数据可视化
【即插即用】涨点神器AFF:注意力特征融合(已经开源,附论文和源码链接)
【即插即用】涨点神器AFF:注意力特征融合(已经开源,附论文和源码链接)
5809 1
|
10月前
|
人工智能 数据可视化 JavaScript
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
NodeTool 是一个开源的 AI 工作流可视化构建器,通过拖放节点的方式设计复杂的工作流,无需编码即可快速原型设计和测试。它支持本地 GPU 运行 AI 模型,并与 Hugging Face、OpenAI 等平台集成,提供模型访问能力。
383 14
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
Manga Image Translator 是一款开源的漫画图片文字翻译工具,支持多语言翻译并能将翻译后的文本无缝嵌入原图,保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型,提供批量处理和在线/离线翻译功能。
559 15
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐
VMB(Visuals Music Bridge)是由中科院联合多所高校机构推出的多模态音乐生成框架,能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。
334 7
VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐
|
10月前
|
人工智能 算法 物联网
Lyra:SmartMore 联合香港多所高校推出的多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力
Lyra是由香港中文大学、SmartMore和香港科技大学联合推出的高效多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型和多模态LoRA模块,减少训练成本和数据需求,支持多种模态理解和推理任务。
295 33
Lyra:SmartMore 联合香港多所高校推出的多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力
|
10月前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
357 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
10月前
|
人工智能 算法 机器人
EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力
EMMA-X是由新加坡科技设计大学推出的具身多模态动作模型,具备70亿参数,通过在链式思维推理数据上微调OpenVLA创建。该模型结合层次化的具身数据集,增强空间推理和任务规划能力。
287 3
EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力
|
10月前
|
人工智能 内存技术
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
谷歌推出的实验性推理模型Gemini 2.0 Flash Thinking,展示了详细的思考过程,能够在多个领域快速解决问题,并提供推理路径。本文将详细介绍该模型的功能、技术原理及使用限制。
451 26
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
|
10月前
【求助】ModelScope Notebook中如何使用conda
在魔搭创建的CPU环境中,虽然在Terminal中可以正常使用miniconda,但在Notebook中无法切换到conda环境,只能选择默认的ipykernel。如何解决这一问题?
202 12

热门文章

最新文章