OmniBooth:华为诺亚方舟联合港科大推出的图像生成框架

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: OmniBooth是由华为诺亚方舟实验室和港科大研究团队联合推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。该框架通过用户定义的掩码和相关联的文本或图像指导,精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

多模态控制:支持文本和图像作为输入,实现多模态指令下的图像生成。
空间控制:用户可以通过定义掩码和提供文本或图像指导,精确控制图像中对象的位置和属性。
高维潜在信号:通过高维潜在控制信号,无缝整合空间、文本和图像条件,提供细粒度的图像合成控制。

正文(附运行示例)

OmniBooth 是什么

OmniBooth是由华为诺亚方舟实验室和港科大研究团队共同推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。框架用用户定义的掩码和相关联的文本或图像指导精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。

OmniBooth的核心在于创新的潜在控制信号,一种高维空间特征,能无缝整合空间、文本和图像条件,实现细粒度的图像合成控制。

公众号: 蚝油菜花 - OmniBooth

OmniBooth 的主要功能

  • 多模态指令控制:支持用文本提示或图像参考控制图像生成,实现多模态指令下的图像合成。
  • 空间控制与实例级定制:用户定义掩码和提供文本或图像指导精确控制图像中对象的位置和属性,实现实例级别的定制。
  • 高维潜在控制信号:基于潜在控制信号,无缝整合空间、文本和图像条件,提供统一的表示方法。
  • 灵活性和实用性:用户根据需要选择文本或图像作为多模态条件,增强生成图像的灵活性和实用性。

OmniBooth 的技术原理

  • 多模态嵌入提取
    • 文本嵌入:用CLIP文本编码器提取文本提示的嵌入向量。
    • 图像嵌入:用DINOv2特征提取器提取图像参考的嵌入向量,保留图像的身份和空间信息。
  • 潜在控制信号:将文本和图像嵌入向量绘制到高维的潜在控制信号中,信号包含空间信息和丰富的潜在特征。
  • 空间变形技术:用空间变形技术,有效地转换并整合图像嵌入到潜在控制信号中,保持图像的细节和结构。
  • 特征对齐网络和边缘损失函数
    • 开发特征对齐网络,将条件注入到潜在特征中。
    • 提出边缘损失以增强高频区域的监督,提高生成图像的质量和结构对齐。
  • 多尺度训练和随机模态选择策略:在训练阶段,模型用多尺度训练和随机模态选择策略,增强模型对不同分辨率和模态输入的适应性。

如何运行 OmniBooth

安装

  1. 克隆仓库

    git clone https://github.com/Len-Li/OmniBooth.git
    cd OmniBooth
    
  2. 设置环境

    pip install torch torchvision transformers
    pip install diffusers==0.26.0.dev0 
    pip install albumentations pycocotools 
    pip install git+https://github.com/cocodataset/panopticapi.git
    

准备数据集

  1. 下载COCONut数据集
    cd data/coconut_dataset 
    mkdir coco && cd coco
    wget http://images.cocodataset.org/zips/train2017.zip
    wget http://images.cocodataset.org/zips/val2017.zip
    wget http://images.cocodataset.org/annotations/annotations_trainval2017.zip
    unzip train2017.zip && unzip val2017.zip
    unzip annotations_trainval2017.zip
    

准备检查点

下载以下模型并放置在./OmniBooth/ckp/目录下:

训练

bash train.sh

推理

bash infer.sh

生成的图像将保存在./vis_dir/目录下。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
28天前
|
人工智能 编解码 自动驾驶
MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法
MagicDriveDiT是由华为联合港中文等机构推出的一种新型自动驾驶高分辨率长视频生成方法。该方法基于DiT架构,通过流匹配增强模型的可扩展性,并采用渐进式训练策略处理复杂场景。MagicDriveDiT能够生成高分辨率的长视频,提供对视频内容的精确控制,适用于自动驾驶系统的测试与验证、感知模型训练、场景重建与模拟以及数据增强等多个应用场景。
74 17
MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法
|
4月前
|
自然语言处理 数据管理 大数据
发布!首个月球专业大模型来了
在2024数博会上,中国科学院地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”(简称“月球专业大模型”)。
89 9
|
8月前
|
人工智能 算法 搜索推荐
慧鲤携手联发科技亮相MWC,端侧LoRA融合技术助力手机大模型技能扩充
慧鲤携手联发科技亮相MWC,端侧LoRA融合技术助力手机大模型技能扩充
|
8月前
|
人工智能 安全 Android开发
OPPO召开AI战略发布会,联发科天玑芯构建AI手机时代计算底座
近期,OPPO举办AI战略发布会,会上正式推出了由OPPO AI超级智能体与AI Pro智能体开发平台共同构建的OPPO 1+N智能体生态战略。与此同时,OPPO与联发科展开深度合作,展示了双方在AI手机领域的创新成果,以共同推进“AI手机(AI Smartphone)”的发展,为广大用户带来更为智能、便捷和高效的下一代AI体验。
|
8月前
|
传感器 机器学习/深度学习 人工智能
前瞻科技,国内首个人形机器人比赛发布
12月28日,第二十六届中国机器人及人工智能大赛人形机器人创新挑战赛在苏州正式发布。 本次大赛由中国机器人及人工智能大赛组委会主办,乐聚(苏州)机器人技术有限公司、北京通用人工智能研究院、苏州大学机器人与微系统中心、深圳开鸿数字产业发展有限公司承办,海尔机器人科技(青岛)有限公司、中移(杭州)信息技术有限公司等十余家企业共同协办。此次赛事分为线上仿真选拔赛和线下正赛,线上仿真选拔赛将于2024年1月-4月举行,线下正赛将于2024年夏季在苏州市吴江区太湖新城举行。
|
存储 人工智能 编解码
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
248 0
|
新零售 编解码 人工智能
上海交大牵手淘宝成立媒体计算实验室:推动视频超分等关键技术发展
7月27日,上海交通大学电子信息与电气工程学院与阿里巴巴集团大淘宝技术宣布达成战略合作,共同成立上海交通大学电子信息与电气工程学院-淘宝(中国)软件有限公司媒体计算联合实验室(下称”联合实验室”)。该联合实验室是为了更好地探索未来媒体时代的极致体验,通过创新和产业结合,推动行业发展。
287 0
上海交大牵手淘宝成立媒体计算实验室:推动视频超分等关键技术发展
|
存储 编解码 Android开发
叫价 3699!中兴智能投影 Spro 2 国内亮相
除过首款高端旗舰级智能手机 Axon 天机外,中兴也把率先亮相美国市场的智能投影 Spro2 带回了国内。 中兴智能投影 SPro 2 拥有 134×131×33.2(毫米)的三围尺寸,526 克体重,披着银色外壳,并配有 5 英寸触摸屏。SPro 2 分辨率为 1280×720,支持 4K 播放,投影尺寸为 20 到 300 英寸,亮度 200 流明,对比度 5000:1,LED 灯泡寿命为 3 万小时,还支持 Microcast、Air Play、DLNA、红外侦测自动对焦(2秒内完成)、自动梯形校正等功能。
191 0
叫价 3699!中兴智能投影 Spro 2 国内亮相
|
机器学习/深度学习 人工智能 自然语言处理
百度大脑5.0发布,宣布与华为重要合作,全新AI芯片「鸿鹄」面世
7 月 3 日,百度 AI 开发者大会在北京开幕。在大会上李彦宏展示的百度 AI 语音识别能力之外,最为引人注目的就是新任 CTO 王海峰向我们揭幕的,最新升级的百度大脑 5.0。新一代大脑在算法和算力上都有了重大突破。
522 0
百度大脑5.0发布,宣布与华为重要合作,全新AI芯片「鸿鹄」面世
|
机器学习/深度学习 人工智能 城市大脑
地图厂商的下一战:AI大战
时代在变化,技术在精进,用户需求不断变化,新基建下的互联网地图行业会给用户带来惊喜,这也是地图商们破局的机遇。

热门文章

最新文章