OmniBooth:华为诺亚方舟联合港科大推出的图像生成框架

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: OmniBooth是由华为诺亚方舟实验室和港科大研究团队联合推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。该框架通过用户定义的掩码和相关联的文本或图像指导,精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

多模态控制:支持文本和图像作为输入,实现多模态指令下的图像生成。
空间控制:用户可以通过定义掩码和提供文本或图像指导,精确控制图像中对象的位置和属性。
高维潜在信号:通过高维潜在控制信号,无缝整合空间、文本和图像条件,提供细粒度的图像合成控制。

正文(附运行示例)

OmniBooth 是什么

OmniBooth是由华为诺亚方舟实验室和港科大研究团队共同推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。框架用用户定义的掩码和相关联的文本或图像指导精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。

OmniBooth的核心在于创新的潜在控制信号,一种高维空间特征,能无缝整合空间、文本和图像条件,实现细粒度的图像合成控制。

公众号: 蚝油菜花 - OmniBooth

OmniBooth 的主要功能

  • 多模态指令控制:支持用文本提示或图像参考控制图像生成,实现多模态指令下的图像合成。
  • 空间控制与实例级定制:用户定义掩码和提供文本或图像指导精确控制图像中对象的位置和属性,实现实例级别的定制。
  • 高维潜在控制信号:基于潜在控制信号,无缝整合空间、文本和图像条件,提供统一的表示方法。
  • 灵活性和实用性:用户根据需要选择文本或图像作为多模态条件,增强生成图像的灵活性和实用性。

OmniBooth 的技术原理

  • 多模态嵌入提取
    • 文本嵌入:用CLIP文本编码器提取文本提示的嵌入向量。
    • 图像嵌入:用DINOv2特征提取器提取图像参考的嵌入向量,保留图像的身份和空间信息。
  • 潜在控制信号:将文本和图像嵌入向量绘制到高维的潜在控制信号中,信号包含空间信息和丰富的潜在特征。
  • 空间变形技术:用空间变形技术,有效地转换并整合图像嵌入到潜在控制信号中,保持图像的细节和结构。
  • 特征对齐网络和边缘损失函数
    • 开发特征对齐网络,将条件注入到潜在特征中。
    • 提出边缘损失以增强高频区域的监督,提高生成图像的质量和结构对齐。
  • 多尺度训练和随机模态选择策略:在训练阶段,模型用多尺度训练和随机模态选择策略,增强模型对不同分辨率和模态输入的适应性。

如何运行 OmniBooth

安装

  1. 克隆仓库

    git clone https://github.com/Len-Li/OmniBooth.git
    cd OmniBooth
    
  2. 设置环境

    pip install torch torchvision transformers
    pip install diffusers==0.26.0.dev0 
    pip install albumentations pycocotools 
    pip install git+https://github.com/cocodataset/panopticapi.git
    

准备数据集

  1. 下载COCONut数据集
    cd data/coconut_dataset 
    mkdir coco && cd coco
    wget http://images.cocodataset.org/zips/train2017.zip
    wget http://images.cocodataset.org/zips/val2017.zip
    wget http://images.cocodataset.org/annotations/annotations_trainval2017.zip
    unzip train2017.zip && unzip val2017.zip
    unzip annotations_trainval2017.zip
    

准备检查点

下载以下模型并放置在./OmniBooth/ckp/目录下:

训练

bash train.sh

推理

bash infer.sh

生成的图像将保存在./vis_dir/目录下。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
Java Nacos
在MSE微服务引擎中,可以使用Java代码进行Nacos下线操作
在MSE微服务引擎中,可以使用Java代码进行Nacos下线操作
427 3
|
11月前
|
人工智能
Fancy123:华中科技和华南理工推出的3D网格生成技术
Fancy123是由华中科技大学和华南理工大学联合推出的3D网格生成技术,能够从单张图片生成高质量的3D网格。该技术通过即插即用的变形技术,解决了多视图图像的局部不一致性,提高了网格对输入图像的保真度,并确保了高清晰度。Fancy123在定性和定量实验中表现出色,能够无缝集成到现有的单图像到3D的方法中。
160 5
Fancy123:华中科技和华南理工推出的3D网格生成技术
|
3月前
|
机器学习/深度学习 算法 文件存储
神经架构搜索NAS详解:三种核心算法原理与Python实战代码
神经架构搜索(NAS)正被广泛应用于大模型及语言/视觉模型设计,如LangVision-LoRA-NAS、Jet-Nemotron等。本文回顾NAS核心技术,解析其自动化设计原理,探讨强化学习、进化算法与梯度方法的应用与差异,揭示NAS在大模型时代的潜力与挑战。
886 6
神经架构搜索NAS详解:三种核心算法原理与Python实战代码
|
11月前
|
供应链 物联网 区块链
新技术浪潮下的变革:区块链、物联网与虚拟现实的融合与创新####
【10月更文挑战第21天】 本文深入剖析了当下三大前沿技术——区块链、物联网(IoT)与虚拟现实(VR)的最新发展趋势,并探讨了它们各自在实际应用中的突破性进展与交叉融合的创新潜力,特别是在提升数据安全、优化用户体验及推动行业数字化转型方面的贡献。通过实例分析,本文揭示了这些技术如何单独及协同作用,重塑传统行业格局,促进数字经济与实体经济深度融合,开启智能化、透明化与沉浸式体验的新纪元。 ####
432 27
|
人工智能 编解码 搜索推荐
OneDiffusion:无缝支持双向图像合成和理解的开源扩散模型
OneDiffusion 是一个开源的扩散模型,能够无缝支持双向图像合成和理解。它基于统一的训练框架,支持多种任务,如文本到图像生成、条件图像生成和图像理解等。OneDiffusion 通过流匹配框架和序列建模技术,实现了高度的灵活性和可扩展性。
241 2
OneDiffusion:无缝支持双向图像合成和理解的开源扩散模型
|
人工智能 数据处理 异构计算
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
LongRAG是由智谱、清华大学和中国科学院联合推出的双视角鲁棒检索增强生成框架,专为长文本问答设计。该框架通过混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器等组件,有效解决了长文本问答中的全局上下文理解和事实细节识别难题。LongRAG在多个数据集上表现优异,提供了自动化微调数据构建管道,增强了系统的“指令跟随”能力和领域适应性。
361 1
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
|
关系型数据库 MySQL 数据库
TDSQL技术详解
一个基本的TDSQL实例的创建和操作流程。对于更高级的特性和最佳实践
1163 0
TDSQL技术详解
|
存储 数据可视化 大数据
从零到一建设数据中台 - 应用场景及实施路径
从零到一建设数据中台 - 应用场景及实施路径
682 0
|
人工智能 自然语言处理 Java
用智谱 GLM-4大模型开发自己的IDEA插件
V 哥建议研究大模型先从研究开放 API 开始,作为程序员的你觉对不是什么难事,通过研究 API 的过程中,可以让你更加了解大模型的原理,当然想要更深入的理解,需要对开源大模型的源码进行研究,根据个人的技术能力,量力而行。研究 API 是第一步,目前热招的岗位中,就有基于大模型开放 API 做应用开发的,大家可以在招聘站点上具体看看职位要求。
687 0
用智谱 GLM-4大模型开发自己的IDEA插件
|
机器学习/深度学习 计算机视觉
CVPR 2024:字节提出新一代数据集COCONut,比COCO粒度分割更密集
【5月更文挑战第5天】在CVPR 2024会议上,字节跳动推出了COCONut数据集,作为COCO的升级版,用于更密集的图像分割任务。COCONut包含383K张图像和5.18M个分割标注,质量与规模均超越COCO,提供更准确、一致的标注,并有更多类别。其密集标注有助于理解图像细节,但大規模与高标注质量也可能带来训练资源和过拟合的挑战。[链接](https://arxiv.org/abs/2404.08639)
632 2

热门文章

最新文章