MultiBooth:清华联合 Meta 推出多对象的图像生成框架,生成包含多个指定对象的图像

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: MultiBooth是清华大学联合Meta等机构推出的多概念图像生成方法,支持高效生成高保真度图像,适用于娱乐、广告、教育等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持从文本生成包含多个指定概念的高保真度图像。
  2. 技术:基于多模态图像编码器和区域定制化模块,实现高效多概念生成。
  3. 应用:广泛应用于娱乐、广告、教育、电子商务和科研等领域。

正文(附运行示例)

MultiBooth 是什么

multibooth

MultiBooth 是由清华大学深圳国际研究生院、Meta、香港科技大学等机构联合推出的多概念图像生成方法。它能够根据用户提供的文本提示,生成包含多个指定概念的图像。MultiBooth 的生成过程分为两个阶段:单概念学习和多概念整合。

在单概念学习阶段,MultiBooth 使用多模态图像编码器和自适应概念归一化技术,为每个概念学习一个简洁且具有区分性的嵌入表示。通过 LoRA 技术,MultiBooth 提高了概念保真度。在多概念整合阶段,MultiBooth 使用区域定制化模块(RCM),根据边界框和区域提示在指定区域内生成各个概念,确保不同概念之间的准确交互。

MultiBooth 的主要功能

  • 多概念图像生成:根据用户提供的文本提示,生成包含多个指定概念的图像。
  • 高保真度和文本对齐:生成的图像具有高保真度,清晰地展示出各个概念的细节特征,且与文本提示高度对齐。
  • 高效推理:推理成本较低,不会随着概念数量的增加而显著增加推理时间。
  • 插件式生成:支持用插件式的方式组合不同的单概念模块,进行多概念图像生成,无需针对每个概念组合重新训练模型。

MultiBooth 的技术原理

  • 多模态图像编码器:使用 QFormer 编码器,输入图像和概念名称,生成与文本对齐的定制化嵌入表示。
  • 自适应概念归一化(ACN):调整定制化嵌入的 L2 范数,解决嵌入空间中的域间差异问题。
  • 高效概念编码技术:使用 LoRA 技术对 U-Net 中的注意力层进行低秩分解,提高单概念学习的概念保真度。
  • 区域定制化模块(RCM):根据边界框和区域提示,将图像特征划分为不同区域,每个区域由相应的单概念模块和提示引导生成概念。

如何运行 MultiBooth

1. 安装依赖

首先,确保你已经安装了 Python 3.8 或更高版本。然后,克隆 MultiBooth 的 GitHub 仓库并安装依赖:

git clone https://github.com/chenyangzhu1/MultiBooth.git
cd MultiBooth
pip install -r requirements.txt

2. 下载预训练模型

MultiBooth 基于 Stable Diffusion v1.5 模型,你需要下载预训练模型:

wget https://huggingface.co/runwayml/stable-diffusion-v1-5/resolve/main/v1-5-pruned-emaonly.ckpt

3. 运行示例代码

以下是一个简单的示例代码,展示如何使用 MultiBooth 生成多概念图像:

from multibooth import MultiBooth

# 初始化 MultiBooth
multibooth = MultiBooth(model_path="v1-5-pruned-emaonly.ckpt")

# 定义文本提示和概念
text_prompt = "A young woman wearing a floral dress and a straw hat, standing in a sunny field."
concepts = ["floral dress", "straw hat"]

# 生成图像
image = multibooth.generate(text_prompt, concepts)
image.save("output.png")

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
机器学习/深度学习 人工智能 测试技术
Meta无限长文本大模型来了:参数仅7B,已开源
【4月更文挑战第26天】Meta 研究团队推出7亿参数的MEGALODON,这是一个专为无限长文本序列建模设计的神经网络架构。通过复数指数移动平均(CEMA)和时间步归一化层等技术创新,MEGALODON在效率和准确性上超越Transformer,且在多种基准测试中表现优秀。源代码已开源,为长序列建模提供新工具,但面临资源限制和处理极端长度序列的挑战。[论文链接](https://arxiv.org/pdf/2404.08801.pdf)
171 3
|
19天前
|
机器学习/深度学习 自然语言处理
NeurIPS 2024:文本图格式大一统!首个大规模文本边基准TEG-DB发布
TEG-DB是NeurIPS 2024发布的全新数据集,首次将丰富的文本描述引入图的边中,填补了现有TAG数据集只关注节点文本信息的空白。该数据集涵盖多个领域,提供全面的节点和边文本描述,助力更深入挖掘实体间上下文关系,提升图结构数据的理解。实验表明,现有技术在利用文本边信息方面仍有提升空间,未来研究需关注文本描述的质量、隐私和伦理问题。论文地址:https://arxiv.org/abs/2406.10310
31 9
|
1月前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
65 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
7月前
|
机器学习/深度学习 人工智能 监控
人工智能平台PAI产品使用合集之设置了7个特征,但在最后生成的数据表中只包含了6个id_feature的特征,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
8月前
|
人工智能 异构计算 Python
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
176 0
|
数据采集 自然语言处理 数据挖掘
离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型
离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型
177 0
|
文字识别 算法 测试技术
DeepSORT再升级 | Deep OC-SORT引入目标外观信息,大幅领先SOTA
DeepSORT再升级 | Deep OC-SORT引入目标外观信息,大幅领先SOTA
1103 0
|
人工智能 自然语言处理
OpenAI文本生成3D模型再升级,数秒完成建模,比Point·E更好用
OpenAI文本生成3D模型再升级,数秒完成建模,比Point·E更好用
231 0
|
算法 数据可视化 测试技术
为复杂场景而生,NTU、字节等开源大型视频目标分割数据集MOSE
为复杂场景而生,NTU、字节等开源大型视频目标分割数据集MOSE
159 0
|
机器学习/深度学习 数据采集 人工智能
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
250 0

热门文章

最新文章