OmniBooth:华为诺亚方舟联合港科大推出的图像生成框架

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: OmniBooth是由华为诺亚方舟实验室和港科大研究团队联合推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。该框架通过用户定义的掩码和相关联的文本或图像指导,精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

多模态控制:支持文本和图像作为输入,实现多模态指令下的图像生成。
空间控制:用户可以通过定义掩码和提供文本或图像指导,精确控制图像中对象的位置和属性。
高维潜在信号:通过高维潜在控制信号,无缝整合空间、文本和图像条件,提供细粒度的图像合成控制。

正文(附运行示例)

OmniBooth 是什么

OmniBooth是由华为诺亚方舟实验室和港科大研究团队共同推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。框架用用户定义的掩码和相关联的文本或图像指导精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。

OmniBooth的核心在于创新的潜在控制信号,一种高维空间特征,能无缝整合空间、文本和图像条件,实现细粒度的图像合成控制。

公众号: 蚝油菜花 - OmniBooth

OmniBooth 的主要功能

  • 多模态指令控制:支持用文本提示或图像参考控制图像生成,实现多模态指令下的图像合成。
  • 空间控制与实例级定制:用户定义掩码和提供文本或图像指导精确控制图像中对象的位置和属性,实现实例级别的定制。
  • 高维潜在控制信号:基于潜在控制信号,无缝整合空间、文本和图像条件,提供统一的表示方法。
  • 灵活性和实用性:用户根据需要选择文本或图像作为多模态条件,增强生成图像的灵活性和实用性。

OmniBooth 的技术原理

  • 多模态嵌入提取
    • 文本嵌入:用CLIP文本编码器提取文本提示的嵌入向量。
    • 图像嵌入:用DINOv2特征提取器提取图像参考的嵌入向量,保留图像的身份和空间信息。
  • 潜在控制信号:将文本和图像嵌入向量绘制到高维的潜在控制信号中,信号包含空间信息和丰富的潜在特征。
  • 空间变形技术:用空间变形技术,有效地转换并整合图像嵌入到潜在控制信号中,保持图像的细节和结构。
  • 特征对齐网络和边缘损失函数
    • 开发特征对齐网络,将条件注入到潜在特征中。
    • 提出边缘损失以增强高频区域的监督,提高生成图像的质量和结构对齐。
  • 多尺度训练和随机模态选择策略:在训练阶段,模型用多尺度训练和随机模态选择策略,增强模型对不同分辨率和模态输入的适应性。

如何运行 OmniBooth

安装

  1. 克隆仓库

    git clone https://github.com/Len-Li/OmniBooth.git
    cd OmniBooth
    
  2. 设置环境

    pip install torch torchvision transformers
    pip install diffusers==0.26.0.dev0 
    pip install albumentations pycocotools 
    pip install git+https://github.com/cocodataset/panopticapi.git
    

准备数据集

  1. 下载COCONut数据集
    cd data/coconut_dataset 
    mkdir coco && cd coco
    wget http://images.cocodataset.org/zips/train2017.zip
    wget http://images.cocodataset.org/zips/val2017.zip
    wget http://images.cocodataset.org/annotations/annotations_trainval2017.zip
    unzip train2017.zip && unzip val2017.zip
    unzip annotations_trainval2017.zip
    

准备检查点

下载以下模型并放置在./OmniBooth/ckp/目录下:

训练

bash train.sh

推理

bash infer.sh

生成的图像将保存在./vis_dir/目录下。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
人工智能 编解码 自动驾驶
MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法
MagicDriveDiT是由华为联合港中文等机构推出的一种新型自动驾驶高分辨率长视频生成方法。该方法基于DiT架构,通过流匹配增强模型的可扩展性,并采用渐进式训练策略处理复杂场景。MagicDriveDiT能够生成高分辨率的长视频,提供对视频内容的精确控制,适用于自动驾驶系统的测试与验证、感知模型训练、场景重建与模拟以及数据增强等多个应用场景。
99 17
MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法
|
2月前
|
人工智能 搜索推荐 开发者
ClotheDreamer:上海大学联合腾讯等高校推出的3D服装生成技术
ClotheDreamer是由上海大学、上海交通大学、复旦大学和腾讯优图实验室联合推出的3D服装生成技术,能够根据文本描述生成高保真、可穿戴的3D服装资产,适用于虚拟试穿和物理精确动画。
75 6
ClotheDreamer:上海大学联合腾讯等高校推出的3D服装生成技术
|
9月前
|
人工智能 算法 搜索推荐
慧鲤携手联发科技亮相MWC,端侧LoRA融合技术助力手机大模型技能扩充
慧鲤携手联发科技亮相MWC,端侧LoRA融合技术助力手机大模型技能扩充
|
9月前
|
传感器 机器学习/深度学习 人工智能
前瞻科技,国内首个人形机器人比赛发布
12月28日,第二十六届中国机器人及人工智能大赛人形机器人创新挑战赛在苏州正式发布。 本次大赛由中国机器人及人工智能大赛组委会主办,乐聚(苏州)机器人技术有限公司、北京通用人工智能研究院、苏州大学机器人与微系统中心、深圳开鸿数字产业发展有限公司承办,海尔机器人科技(青岛)有限公司、中移(杭州)信息技术有限公司等十余家企业共同协办。此次赛事分为线上仿真选拔赛和线下正赛,线上仿真选拔赛将于2024年1月-4月举行,线下正赛将于2024年夏季在苏州市吴江区太湖新城举行。
|
机器学习/深度学习 人工智能 编解码
专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型
专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型
216 0
|
存储 人工智能 编解码
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
273 0
|
新零售 编解码 人工智能
上海交大牵手淘宝成立媒体计算实验室:推动视频超分等关键技术发展
7月27日,上海交通大学电子信息与电气工程学院与阿里巴巴集团大淘宝技术宣布达成战略合作,共同成立上海交通大学电子信息与电气工程学院-淘宝(中国)软件有限公司媒体计算联合实验室(下称”联合实验室”)。该联合实验室是为了更好地探索未来媒体时代的极致体验,通过创新和产业结合,推动行业发展。
305 0
上海交大牵手淘宝成立媒体计算实验室:推动视频超分等关键技术发展
|
人工智能 达摩院 前端开发
阿里2018成绩单出炉;达摩院发布十大科技趋势;Fusion Desgin 正式开源 | 周博通
伴着似乎刮不完的西北风,“小寒”在前两天悄悄来临了。“小寒鱼塘冰封严,大雪纷飞不稀罕”,作为冬天的第五个节气,“小寒”标志着一年中最冷的日子拉开序幕。小伙伴们记得添衣加裳,适当喝水多锻炼哦。 每周一早晨,阿里妹为你呈现最新的阿里技术资讯。
7177 0
共话AIoT与“智能+”,“AI赋能 智联万物——开发者沙龙·无锡站”圆满落幕
随着“智能+”的提出,它将加快促进AIoT产业的发展与落地。
591 0
2018高通骁龙峰会,大象声科在内的合作伙伴基于骁龙855实现的AI升级成为全场亮点
2018年度高通骁龙技术峰会上,中国企业与高通构建的合作,成为最受关注的亮点之一。
461 0

热门文章

最新文章