MultiBooth:清华联合 Meta 推出多对象的图像生成框架,生成包含多个指定对象的图像

简介: MultiBooth是清华大学联合Meta等机构推出的多概念图像生成方法,支持高效生成高保真度图像,适用于娱乐、广告、教育等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持从文本生成包含多个指定概念的高保真度图像。
  2. 技术:基于多模态图像编码器和区域定制化模块,实现高效多概念生成。
  3. 应用:广泛应用于娱乐、广告、教育、电子商务和科研等领域。

正文(附运行示例)

MultiBooth 是什么

multibooth

MultiBooth 是由清华大学深圳国际研究生院、Meta、香港科技大学等机构联合推出的多概念图像生成方法。它能够根据用户提供的文本提示,生成包含多个指定概念的图像。MultiBooth 的生成过程分为两个阶段:单概念学习和多概念整合。

在单概念学习阶段,MultiBooth 使用多模态图像编码器和自适应概念归一化技术,为每个概念学习一个简洁且具有区分性的嵌入表示。通过 LoRA 技术,MultiBooth 提高了概念保真度。在多概念整合阶段,MultiBooth 使用区域定制化模块(RCM),根据边界框和区域提示在指定区域内生成各个概念,确保不同概念之间的准确交互。

MultiBooth 的主要功能

  • 多概念图像生成:根据用户提供的文本提示,生成包含多个指定概念的图像。
  • 高保真度和文本对齐:生成的图像具有高保真度,清晰地展示出各个概念的细节特征,且与文本提示高度对齐。
  • 高效推理:推理成本较低,不会随着概念数量的增加而显著增加推理时间。
  • 插件式生成:支持用插件式的方式组合不同的单概念模块,进行多概念图像生成,无需针对每个概念组合重新训练模型。

MultiBooth 的技术原理

  • 多模态图像编码器:使用 QFormer 编码器,输入图像和概念名称,生成与文本对齐的定制化嵌入表示。
  • 自适应概念归一化(ACN):调整定制化嵌入的 L2 范数,解决嵌入空间中的域间差异问题。
  • 高效概念编码技术:使用 LoRA 技术对 U-Net 中的注意力层进行低秩分解,提高单概念学习的概念保真度。
  • 区域定制化模块(RCM):根据边界框和区域提示,将图像特征划分为不同区域,每个区域由相应的单概念模块和提示引导生成概念。

如何运行 MultiBooth

1. 安装依赖

首先,确保你已经安装了 Python 3.8 或更高版本。然后,克隆 MultiBooth 的 GitHub 仓库并安装依赖:

git clone https://github.com/chenyangzhu1/MultiBooth.git
cd MultiBooth
pip install -r requirements.txt

2. 下载预训练模型

MultiBooth 基于 Stable Diffusion v1.5 模型,你需要下载预训练模型:

wget https://huggingface.co/runwayml/stable-diffusion-v1-5/resolve/main/v1-5-pruned-emaonly.ckpt

3. 运行示例代码

以下是一个简单的示例代码,展示如何使用 MultiBooth 生成多概念图像:

from multibooth import MultiBooth

# 初始化 MultiBooth
multibooth = MultiBooth(model_path="v1-5-pruned-emaonly.ckpt")

# 定义文本提示和概念
text_prompt = "A young woman wearing a floral dress and a straw hat, standing in a sunny field."
concepts = ["floral dress", "straw hat"]

# 生成图像
image = multibooth.generate(text_prompt, concepts)
image.save("output.png")

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
并行计算 Ubuntu 机器人
计算机视觉教程7-3:Openpose配置与实践
计算机视觉教程7-3:Openpose配置与实践
3375 0
计算机视觉教程7-3:Openpose配置与实践
|
6月前
|
人工智能 弹性计算 大数据
和五所高校一起,我们共同打造了一门 AI 课程!
阿里云、超星尔雅协同北京大学、南京大学、复旦大学、上海交通大学、浙江大学五所高校名师,共同推出的 AI 通识公益系列课程「动手学 AI:人工智能通识与实践」将于 9月 1 日面向全国所有高校、所有专业的师生正式开放。
542 5
|
IDE Java 应用服务中间件
【SpringMVC】Jrebel 插件实现热部署与文件上传(上)
【SpringMVC】Jrebel 插件实现热部署与文件上传(上)
326 0
|
安全 API
通义千问API获取方法
访问阿里云DashScope官网以获取API-KEY。首先需开通DashScope服务:登录控制台,点击“去开通”,阅读协议后点击“立即开通”。接着获取API-KEY:进入API-KEY管理页面,点击“创建新的API-KEY”,复制并安全保存生成的API-KEY。完成这些步骤后,即可使用API-KEY调用DashScope API。更多详情见[官方文档](https://help.aliyun.com/zh/dashscope/developer-reference/acquisition-and-configuration-of-api-key)。
|
人工智能 监控 数据库
LLM 应用可观测性:从 Trace 视角展开的探索与实践之旅
基于大语言模型的应用在性能、成本、效果等方面存在一系列实际痛点,本文通过分析 LLM 应用模式以及关注点差异来阐明可观测技术挑战,近期阿里云可观测推出了面向 LLM 应用的可观测解决方案以及最佳实践,一起来了解下吧。
20477 124
LLM 应用可观测性:从 Trace 视角展开的探索与实践之旅
|
11月前
|
人工智能 云计算
南京大学与阿里云签署校企合作协议,以“云工开物”支持人工智能人才培养与科研创新
3月28日,南京大学与阿里云签署全面校企合作协议,共同推动科教融汇与产教融合。双方将启动人工智能人才培养计划,基于阿里云技术优势和南大学科实力,设计通识课程与实践课程,支持“1+X+Y”课程体系建设。阿里云将为南大师生提供免费算力资源,助力教学科研,并通过产学研合作培养新工科拔尖创新人才,推动科技成果转化与高水平自立自强。
|
11月前
|
存储 人工智能 运维
阿里云操作系统控制台——解决服务器磁盘I/O故障
阿里云操作系统控制台——解决服务器磁盘I/O故障
496 12
|
12月前
|
人工智能 PyTorch 算法框架/工具
Sonic:自动对齐音频与唇部动作,一键合成配音动画!腾讯与浙大联合推出音频驱动肖像动画生成框架
Sonic 是由腾讯和浙江大学联合开发的音频驱动肖像动画框架,支持逼真的唇部同步、丰富的表情和头部动作、长时间稳定生成,并提供用户可调节性。
804 23
|
人工智能
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型,能够自动生成高保真度的主播风格产品推广视频,通过整合人-物交互(HOI)技术,实现对物体外观和运动控制的高度还原。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法,为在线广告和消费者参与提供了新的可能性。
1712 31
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
|
API 开发者
微信native支付对接案例详解
本文详细介绍了微信Native支付的对接流程,包括效果展示、产品介绍、接入前准备、开发指引、API列表、支付通知等,并强调了只有通过微信认证的服务号才能对接微信支付。每年需支付300元认证费用。
538 3

热门文章

最新文章