MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器

简介: MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多视图图像生成:支持生成768分辨率的多视角一致图像。
  2. 适配定制模型:完美适配多种文本到图像模型和插件。
  3. 3D模型重建:支持从文本和图像生成多视图图像并重建3D模型。

正文(附运行示例)

MV-Adapter 是什么

公众号: 蚝油菜花 - MV-Adapter

MV-Adapter是由北京航空航天大学、VAST和上海交通大学的研究团队推出的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,无需改变原始网络结构或特征空间。

MV-Adapter基于创新的注意力架构和统一条件编码器,高效地建模多视图一致性和参考图像的相关性,支持生成高分辨率的多视角图像,并能适配多种定制模型和插件,实现广泛的应用场景。

MV-Adapter 的主要功能

  • 多视图图像生成:支持生成768分辨率的多视角一致图像。
  • 适配定制模型:完美适配定制的文本到图像模型、潜在一致性模型(LCM)、ControlNet插件等。
  • 3D模型重建:支持从文本和图像生成多视图图像,并重建3D模型。
  • 高质量3D贴图:用已知几何引导生成高质量的3D贴图。
  • 任意视角生成:能扩展至从任意视点生成图像,支持更广泛的下游任务。

MV-Adapter 的技术原理

  • 通用条件引导器:设计通用的条件引导器,编码相机和几何信息,为文本到图像模型提供不同类型的引导。
  • 解耦的注意力层:推出一种解耦的注意力机制,避免对基础模型的侵入性修改。
  • 并行注意力架构:将多视角注意力层与图像交叉注意力层并行添加,确保新引入的注意力层与预训练的自注意力层共享输入特征。
  • 多视角注意力机制:根据不同的应用需求,设计多种多视角注意力策略。
  • 图像交叉注意力机制:推出一种创新的图像交叉注意力机制,充分利用参考图像的细节信息。

如何运行 MV-Adapter

安装

首先克隆仓库:

git clone https://github.com/huanngzh/MV-Adapter.git
cd MV-Adapter

(可选)创建一个新的conda环境:

conda create -n mvadapter python=3.10
conda activate mvadapter

安装必要的包(需要torch > 2):

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt

运行示例

文本到多视图生成

使用SDXL模型:

python -m scripts.gradio_demo_t2mv --base_model "stabilityai/stable-diffusion-xl-base-1.0"

使用动漫风格的模型:

python -m scripts.gradio_demo_t2mv --base_model "cagliostrolab/animagine-xl-3.1"

图像到多视图生成

使用SDXL模型:

python -m scripts.gradio_demo_i2mv

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
开发者
移动端UI名词 - AxureMost
该文档介绍了多种UI组件的分类和功能,包括按钮、图标、宫格等基础组件,头像、徽标、轮播图等数据展示类组件,复选框、日期选择器、输入框等数据输入类组件,以及对话框、加载、消息通知等反馈类组件。此外,还涵盖了下拉菜单、导航栏、分页器等导航类组件。每个组件都有具体的应用场景和作用,帮助开发者快速构建界面。
492 28
|
存储 人工智能 缓存
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
DiffSplat 是由北京大学和字节跳动联合推出的一个高效 3D 生成框架,能够在 1-2 秒内从文本提示或单视图图像生成高质量的 3D 高斯点阵,并确保多视图下的一致性。
715 19
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
|
设计模式 API C#
桥接模式(Bridge Pattern)
桥接模式是一种结构型设计模式,通过将抽象部分与实现部分分离,使它们可以独立变化,从而提高系统的灵活性和扩展性。主要角色包括抽象化、扩展抽象化、实现和具体实现。适用于多变化维度的系统,如跨平台开发、图形系统等。优点是分离抽象与实现,减少子类数量;缺点是增加了复杂性和理解难度。
|
机器学习/深度学习 计算机视觉 Python
图像数据的特征提取与预处理方法,涵盖图像数据的特点、主要的特征提取技术
本文深入探讨了图像数据的特征提取与预处理方法,涵盖图像数据的特点、主要的特征提取技术(如颜色、纹理、形状特征)及预处理步骤(如图像增强、去噪、分割)。同时介绍了Python中常用的OpenCV和Scikit-image库,并提供了代码示例,强调了预处理的重要性及其在提升模型性能中的作用。
2094 5
|
存储 安全 算法
SSL和TLS部署实践
【10月更文挑战第28天】在TLS中,服务器的加密身份和强大私钥是安全基础,2048位RSA密钥足以满足大多数需求。保护私钥需在可信环境生成、加密存储、使用HSM、及时撤销旧证书、每年更新证书。确保证书覆盖所有域名,选择可靠CA,使用SHA256签名算法,配置完整证书链,禁用不安全加密套件,启用前向保密,使用会话重用机制,启用OCSP Stapling,加密整个网站,删除混合内容,安全设置Cookie,配置HSTS和CSP。
983 1
|
Java
Java“NumberFormatException”解决
当尝试将字符串转换为数字时,若字符串格式不正确,则会抛出“NumberFormatException”。解决方法:1. 检查字符串是否为空或仅包含空白字符;2. 确保字符串中的字符都是数字;3. 使用异常处理捕获并处理该异常。
855 1
|
安全 Linux 网络安全
登录神器:Hydra 保姆级教程
登录神器:Hydra 保姆级教程
|
机器学习/深度学习 缓存 Shell
VSCode上的Git使用手记(持续更新ing...)
本笔记是我想要学习如何将本地文件发布到GitHub上时开始看廖雪峰的Git教程,然后打开了VSCode,发现VSCode上面集成的Git辅助使用功能真的很好用…… 基本上到了不用看教程都可以猜懂的地步。 为了整理、规范使用技巧,在经过了一番学习和试验之后,觉得以这样一篇使用手记的形式发布使用技巧相关的博文,以记录和沉淀经验,并帮助更多Git和VSCode初学者少踩坑。 本文参考的教程、文档等内容见本文末尾。
VSCode上的Git使用手记(持续更新ing...)

热门文章

最新文章