MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器

简介: MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多视图图像生成:支持生成768分辨率的多视角一致图像。
  2. 适配定制模型:完美适配多种文本到图像模型和插件。
  3. 3D模型重建:支持从文本和图像生成多视图图像并重建3D模型。

正文(附运行示例)

MV-Adapter 是什么

公众号: 蚝油菜花 - MV-Adapter

MV-Adapter是由北京航空航天大学、VAST和上海交通大学的研究团队推出的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,无需改变原始网络结构或特征空间。

MV-Adapter基于创新的注意力架构和统一条件编码器,高效地建模多视图一致性和参考图像的相关性,支持生成高分辨率的多视角图像,并能适配多种定制模型和插件,实现广泛的应用场景。

MV-Adapter 的主要功能

  • 多视图图像生成:支持生成768分辨率的多视角一致图像。
  • 适配定制模型:完美适配定制的文本到图像模型、潜在一致性模型(LCM)、ControlNet插件等。
  • 3D模型重建:支持从文本和图像生成多视图图像,并重建3D模型。
  • 高质量3D贴图:用已知几何引导生成高质量的3D贴图。
  • 任意视角生成:能扩展至从任意视点生成图像,支持更广泛的下游任务。

MV-Adapter 的技术原理

  • 通用条件引导器:设计通用的条件引导器,编码相机和几何信息,为文本到图像模型提供不同类型的引导。
  • 解耦的注意力层:推出一种解耦的注意力机制,避免对基础模型的侵入性修改。
  • 并行注意力架构:将多视角注意力层与图像交叉注意力层并行添加,确保新引入的注意力层与预训练的自注意力层共享输入特征。
  • 多视角注意力机制:根据不同的应用需求,设计多种多视角注意力策略。
  • 图像交叉注意力机制:推出一种创新的图像交叉注意力机制,充分利用参考图像的细节信息。

如何运行 MV-Adapter

安装

首先克隆仓库:

git clone https://github.com/huanngzh/MV-Adapter.git
cd MV-Adapter

(可选)创建一个新的conda环境:

conda create -n mvadapter python=3.10
conda activate mvadapter

安装必要的包(需要torch > 2):

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt

运行示例

文本到多视图生成

使用SDXL模型:

python -m scripts.gradio_demo_t2mv --base_model "stabilityai/stable-diffusion-xl-base-1.0"

使用动漫风格的模型:

python -m scripts.gradio_demo_t2mv --base_model "cagliostrolab/animagine-xl-3.1"

图像到多视图生成

使用SDXL模型:

python -m scripts.gradio_demo_i2mv

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 编解码 数据可视化
【即插即用】涨点神器AFF:注意力特征融合(已经开源,附论文和源码链接)
【即插即用】涨点神器AFF:注意力特征融合(已经开源,附论文和源码链接)
8525 1
|
缓存 JSON 前端开发
CORS 详解,终于不用担心跨域问题了
CORS 详解,终于不用担心跨域问题了
9071 1
CORS 详解,终于不用担心跨域问题了
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
12月前
|
存储 人工智能 缓存
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
DiffSplat 是由北京大学和字节跳动联合推出的一个高效 3D 生成框架,能够在 1-2 秒内从文本提示或单视图图像生成高质量的 3D 高斯点阵,并确保多视图下的一致性。
671 19
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
778 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
机器学习/深度学习 人工智能 算法
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
阿里云人工智能平台 PAI 顺利通过中国信通院组织的 ITU-T AICP-GA国际标准和《智算工程平台能力要求》国内标准一致性测评,成为国内首家通过该标准的企业。阿里云人工智能平台 PAI 参与完成了智算安全、AI 能力中心、数据工程、模型开发训练、模型推理部署等全部八个能力域,共计220余个用例的测试,并100%通过测试要求,获得了 ITU 国际标准和国内可信云标准评估通过双证书。
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
|
人工智能 Linux Docker
一文详解几种常见本地大模型个人知识库工具部署、微调及对比选型(1)
近年来,大模型在AI领域崭露头角,成为技术创新的重要驱动力。从AlphaGo的胜利到GPT系列的推出,大模型展现出了强大的语言生成、理解和多任务处理能力,预示着智能化转型的新阶段。然而,要将大模型的潜力转化为实际生产力,需要克服理论到实践的鸿沟,实现从实验室到现实世界的落地应用。阿里云去年在云栖大会上发布了一系列基于通义大模型的创新应用,标志着大模型技术开始走向大规模商业化和产业化。这些应用展示了大模型在交通、电力、金融、政务、教育等多个行业的广阔应用前景,并揭示了构建具有行业特色的“行业大模型”这一趋势,大模型知识库概念随之诞生。
157797 30
|
设计模式 API C#
桥接模式(Bridge Pattern)
桥接模式是一种结构型设计模式,通过将抽象部分与实现部分分离,使它们可以独立变化,从而提高系统的灵活性和扩展性。主要角色包括抽象化、扩展抽象化、实现和具体实现。适用于多变化维度的系统,如跨平台开发、图形系统等。优点是分离抽象与实现,减少子类数量;缺点是增加了复杂性和理解难度。

热门文章

最新文章