OmniBooth:华为诺亚方舟联合港科大推出的图像生成框架

简介: OmniBooth是由华为诺亚方舟实验室和港科大研究团队联合推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。该框架通过用户定义的掩码和相关联的文本或图像指导,精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

多模态控制:支持文本和图像作为输入,实现多模态指令下的图像生成。
空间控制:用户可以通过定义掩码和提供文本或图像指导,精确控制图像中对象的位置和属性。
高维潜在信号:通过高维潜在控制信号,无缝整合空间、文本和图像条件,提供细粒度的图像合成控制。

正文(附运行示例)

OmniBooth 是什么

OmniBooth是由华为诺亚方舟实验室和港科大研究团队共同推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。框架用用户定义的掩码和相关联的文本或图像指导精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。

OmniBooth的核心在于创新的潜在控制信号,一种高维空间特征,能无缝整合空间、文本和图像条件,实现细粒度的图像合成控制。

公众号: 蚝油菜花 - OmniBooth

OmniBooth 的主要功能

  • 多模态指令控制:支持用文本提示或图像参考控制图像生成,实现多模态指令下的图像合成。
  • 空间控制与实例级定制:用户定义掩码和提供文本或图像指导精确控制图像中对象的位置和属性,实现实例级别的定制。
  • 高维潜在控制信号:基于潜在控制信号,无缝整合空间、文本和图像条件,提供统一的表示方法。
  • 灵活性和实用性:用户根据需要选择文本或图像作为多模态条件,增强生成图像的灵活性和实用性。

OmniBooth 的技术原理

  • 多模态嵌入提取
    • 文本嵌入:用CLIP文本编码器提取文本提示的嵌入向量。
    • 图像嵌入:用DINOv2特征提取器提取图像参考的嵌入向量,保留图像的身份和空间信息。
  • 潜在控制信号:将文本和图像嵌入向量绘制到高维的潜在控制信号中,信号包含空间信息和丰富的潜在特征。
  • 空间变形技术:用空间变形技术,有效地转换并整合图像嵌入到潜在控制信号中,保持图像的细节和结构。
  • 特征对齐网络和边缘损失函数
    • 开发特征对齐网络,将条件注入到潜在特征中。
    • 提出边缘损失以增强高频区域的监督,提高生成图像的质量和结构对齐。
  • 多尺度训练和随机模态选择策略:在训练阶段,模型用多尺度训练和随机模态选择策略,增强模型对不同分辨率和模态输入的适应性。

如何运行 OmniBooth

安装

  1. 克隆仓库

    git clone https://github.com/Len-Li/OmniBooth.git
    cd OmniBooth
    
  2. 设置环境

    pip install torch torchvision transformers
    pip install diffusers==0.26.0.dev0 
    pip install albumentations pycocotools 
    pip install git+https://github.com/cocodataset/panopticapi.git
    

准备数据集

  1. 下载COCONut数据集
    cd data/coconut_dataset 
    mkdir coco && cd coco
    wget http://images.cocodataset.org/zips/train2017.zip
    wget http://images.cocodataset.org/zips/val2017.zip
    wget http://images.cocodataset.org/annotations/annotations_trainval2017.zip
    unzip train2017.zip && unzip val2017.zip
    unzip annotations_trainval2017.zip
    

准备检查点

下载以下模型并放置在./OmniBooth/ckp/目录下:

训练

bash train.sh

推理

bash infer.sh

生成的图像将保存在./vis_dir/目录下。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
Java Nacos
在MSE微服务引擎中,可以使用Java代码进行Nacos下线操作
在MSE微服务引擎中,可以使用Java代码进行Nacos下线操作
479 3
|
安全 JavaScript Go
Vue中的v-html指令有什么潜在的安全风险?如何防范?
Vue中的v-html指令有什么潜在的安全风险?如何防范?
1448 1
|
10月前
|
人工智能 自然语言处理 算法
文生图架构设计原来如此简单之交互流程优化
文生图创作很少是一次完成的过程,通常需要多轮迭代才能达到理想效果。多轮交互架构设计的目标是使这一迭代过程尽可能流畅和高效。
282 6
|
11月前
|
人工智能 物联网
VideoPainter:开源视频修复神器!双分支架构一键修复,对象身份永久在线
VideoPainter 是由香港中文大学、腾讯ARC Lab等机构联合推出的视频修复和编辑框架,基于双分支架构和预训练扩散模型,支持任意长度视频的修复与编辑,具备背景保留、前景生成、文本指导编辑等功能,为视频处理领域带来新的突破。
579 12
|
人工智能 定位技术 API
旅行规划太难做?5 分钟构建智能Agent,集成地图 MCP Server
MCP(Model Coordination Protocol)是由Anthropic公司提出的开源协议,旨在通过标准化交互方式解决AI大模型与外部数据源、工具的集成难题。阿里云百炼平台上线了业界首个全生命周期MCP服务,大幅降低Agent开发门槛,实现5分钟快速搭建智能体应用。本文介绍基于百炼平台“模型即选即用+MCP服务”模式,详细展示了如何通过集成高德地图MCP Server为智能体添加地图信息与天气查询能力,构建全面的旅行规划助手。方案涵盖智能体创建、模型配置、指令与技能设置等步骤,并提供清理资源的指导以避免费用产生。
|
人工智能 数据处理 异构计算
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
LongRAG是由智谱、清华大学和中国科学院联合推出的双视角鲁棒检索增强生成框架,专为长文本问答设计。该框架通过混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器等组件,有效解决了长文本问答中的全局上下文理解和事实细节识别难题。LongRAG在多个数据集上表现优异,提供了自动化微调数据构建管道,增强了系统的“指令跟随”能力和领域适应性。
431 1
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
|
关系型数据库 MySQL 数据库
TDSQL技术详解
一个基本的TDSQL实例的创建和操作流程。对于更高级的特性和最佳实践
1287 0
TDSQL技术详解
|
机器学习/深度学习 计算机视觉
CVPR 2024:字节提出新一代数据集COCONut,比COCO粒度分割更密集
【5月更文挑战第5天】在CVPR 2024会议上,字节跳动推出了COCONut数据集,作为COCO的升级版,用于更密集的图像分割任务。COCONut包含383K张图像和5.18M个分割标注,质量与规模均超越COCO,提供更准确、一致的标注,并有更多类别。其密集标注有助于理解图像细节,但大規模与高标注质量也可能带来训练资源和过拟合的挑战。[链接](https://arxiv.org/abs/2404.08639)
710 2
|
存储 数据可视化 大数据
从零到一建设数据中台 - 应用场景及实施路径
从零到一建设数据中台 - 应用场景及实施路径
892 0

热门文章

最新文章