冬天到了,用OmniGen生成一个温暖的拥抱

简介: 近期,北京智源人工智能研究院(BAAI)正式推出了一款名为OmniGen的新型多功能图像生成模型。

01引言

近期,北京智源人工智能研究院(BAAI)正式推出了一款名为OmniGen的新型多功能图像生成模型。这一创新性扩散模型架构旨在为用户提供一站式的图像生成解决方案,涵盖从文本生成图像、图像编辑到主题驱动生成以及视觉条件生成等多种应用场景,标志着人工智能图像生成技术的进一步成熟。

OmniGen 是一个统一的图像生成模型,可以根据多模态提示生成各种图像。它设计简单、灵活且易于使用。本文提供了推理代码和Comfyui运行方式,以便每个人都可以探索 OmniGen 的更多功能。

现有的图像生成模型往往需要加载多个额外的网络模块(如 ControlNet、IP-Adapter、Reference-Net 等)并执行额外的预处理步骤(例如人脸检测、姿势估计、裁剪等)才能生成令人满意的图像。但认为未来的图像生成范式应该更加简单灵活,即直接通过任意多模态指令生成各种图像,而无需额外的插件和操作,类似于 GPT 在语言生成中的工作方式。

用户可以轻松地微调 OmniGen,而不必担心为特定任务设计模型;你只需要准备相应的数据,然后运行训练脚本即可。想象力不再受限;每个人都可以构造任何图像生成任务,可以实现非常有趣、精彩和富有创意的事情。

核心亮点

  1. 新的图像生成模型OmniGen,能够处理多种任务和条件,并且具有推理能力和学习能力。
  2. OmniGen不需要额外模块来处理控制条件,具有高度简化的架构,用户友好,可简化工作流程。
  3. OmniGen通过统一格式的学习,能够跨任务转移知识,处理未见过的任务和领域,并具备新颖的能力。
  4. OmniGen可以同时处理多个任务和同一任务的不同指令,具有灵活性和广泛应用潜力。
  5. OmniGen能够从参考图像中提取相关信息并基于捕捉到的条件生成新图像,无需使用其他模型进行显式条件提取

模型网络

OmniGen框架采用由变分自编码器(VAE)和预训练的大规模Transformer模型组成的架构。具体来说,VAE从图像中提取连续的视觉特征,而Transformer模型则根据输入条件生成图像。在本文中,使用SDXL中的VAE,并将其冻结以进行训练。使用Phi-3来初始化Transformer模型,继承其出色的文本处理能力。不同于最先进的扩散模型需要额外的编码器对条件信息进行预处理(例如Clip文本编码器和图像编码器),OmniGen本身就可以编码条件信息,显著简化了管道。此外,OmniGen联合建模文本和图像在一个模型内,而不是像现有工作那样分别用不同的编码器独立地建模不同输入条件,这些工作缺乏不同模态条件之间的交互。

🔗模型链接:

https://modelscope.cn/models/BAAI/OmniGen-v1

🔗体验链接:

https://modelscope.cn/studios/chuanSir/OmniGen

02 魔搭最佳实践

🫂推理代码(来个拥抱!)

环境安装

# 环境安装
!git clone https://github.com/VectorSpaceLab/OmniGen.git
%cd OmniGen
!pip install -e .

模型下载和推理

from OmniGen import OmniGenPipelinefrom modelscope import snapshot_downloadmodel_dir = snapshot_download("BAAI/OmniGen-v1")pipe = OmniGenPipeline.from_pretrained(model_dir)  ## Multi-modal to Image# In the prompt, we use the placeholder to represent the image. The image placeholder should be in the format of <img><|image_*|></img># You can add multiple images in the input_images. Please ensure that each image has its placeholder. For example, for the list input_images [img1_path, img2_path], the prompt needs to have two placeholders: <img><|image_1|></img>, <img><|image_2|></img>.images = pipe(    prompt="A man is hugging with a girl. The girl is the bear in <img><|image_1|></img>. The man is the girl in <img><|image_2|></img>.",    input_images=["/mnt/workspace/bear.jpg","/mnt/workspace/girl.jpg"],    height=512,     width=512,    guidance_scale=2,     img_guidance_scale=1.6,    seed=42)images[0].save("example_ti2i.png")  # save output PIL image

显存占用:

🔗notebook链接:https://modelscope.cn/notebook/share/ipynb/4dcfd153/OmniInference.ipynb

03Comfyui实战

环境安装

# 环境安装
!git clone https://github.com/VectorSpaceLab/OmniGen.git
%cd OmniGen
!pip install -e .
%cd ..

下载依赖

# #@title Environment Setup
from pathlib import Path
OPTIONS = {}
UPDATE_COMFY_UI = True  #@param {type:"boolean"}
INSTALL_COMFYUI_MANAGER = True  #@param {type:"boolean"}
INSTALL_CUSTOM_NODES_DEPENDENCIES = True  #@param {type:"boolean"}
INSTALL_CUSTOM_NODES_OMNIGEN = True #@param {type:"boolean"}
OPTIONS['UPDATE_COMFY_UI'] = UPDATE_COMFY_UI
OPTIONS['INSTALL_COMFYUI_MANAGER'] = INSTALL_COMFYUI_MANAGER
OPTIONS['INSTALL_CUSTOM_NODES_DEPENDENCIES'] = INSTALL_CUSTOM_NODES_DEPENDENCIES
OPTIONS['INSTALL_CUSTOM_NODES_OMNIGEN'] = INSTALL_CUSTOM_NODES_OMNIGEN
current_dir = !pwd
WORKSPACE = f"{current_dir[0]}/ComfyUI"
![ ! -d $WORKSPACE ] && echo -= Initial setup ComfyUI =- && git clone https://github.com/comfyanonymous/ComfyUI
%cd $WORKSPACE
if OPTIONS['UPDATE_COMFY_UI']:
  !echo "-= Updating ComfyUI =-"
  !git pull
if OPTIONS['INSTALL_COMFYUI_MANAGER']:
  %cd custom_nodes
  ![ ! -d ComfyUI-Manager ] && echo -= Initial setup ComfyUI-Manager =- && git clone https://github.com/ltdrdata/ComfyUI-Manager
  %cd ComfyUI-Manager
  !git pull
if OPTIONS['INSTALL_CUSTOM_NODES_OMNIGEN']:
  %cd ..
  !echo -= Initial setup ComfyUI_Omnigen =- && git clone https://github.com/1038lab/ComfyUI-OmniGen.git

运行Comfyui页面

!wget "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/cloudflared-linux-amd64.deb"
!dpkg -i cloudflared-linux-amd64.deb
%cd /mnt/workspace/ComfyUI
import subprocess
import threading
import time
import socket
import urllib.request
def iframe_thread(port):
  while True:
      time.sleep(0.5)
      sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
      result = sock.connect_ex(('127.0.0.1', port))
      if result == 0:
        break
      sock.close()
  print("\nComfyUI finished loading, trying to launch cloudflared (if it gets stuck here cloudflared is having issues)\n")
  p = subprocess.Popen(["cloudflared", "tunnel", "--url", "http://127.0.0.1:{}".format(port)], stdout=subprocess.PIPE, stderr=subprocess.PIPE)
  for line in p.stderr:
    l = line.decode()
    if "trycloudflare.com " in l:
      print("This is the URL to access ComfyUI:", l[l.find("http"):], end='')
    #print(l, end='')
threading.Thread(target=iframe_thread, daemon=True, args=(8188,)).start()
!python main.py --dont-print-server

🔗导入Comfyui工作流:

https://github.com/1038lab/ComfyUI-OmniGen/tree/main/Examples

工作流示例:

显存占用:

🔗notebook链接分享:

https://modelscope.cn/notebook/share/ipynb/aadb79ef/comfyui_omnigen.ipynb


点击链接👇,即可跳转体验~

https://modelscope.cn/studios/chuanSir/OmniGen?from=alizishequ__text

相关文章
|
8天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
12天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
3天前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
|
9天前
|
人工智能 运维 双11
2024阿里云双十一云资源购买指南(纯客观,无广)
2024年双十一,阿里云推出多项重磅优惠,特别针对新迁入云的企业和初创公司提供丰厚补贴。其中,36元一年的轻量应用服务器、1.95元/小时的16核60GB A10卡以及1元购域名等产品尤为值得关注。这些产品不仅价格亲民,还提供了丰富的功能和服务,非常适合个人开发者、学生及中小企业快速上手和部署应用。
|
19天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
3940 3
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
8天前
|
算法 安全 网络安全
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
2024阿里云11.11金秋云创季活动火热进行中,活动月期间(2024年11月01日至11月30日)通过折扣、叠加优惠券等多种方式,阿里云WoSign SSL证书实现优惠价格新低,DV SSL证书220元/年起,助力中小企业轻松实现HTTPS加密,保障数据传输安全。
522 3
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
|
15天前
|
安全 数据建模 网络安全
2024阿里云双11,WoSign SSL证书优惠券使用攻略
2024阿里云“11.11金秋云创季”活动主会场,阿里云用户通过完成个人或企业实名认证,可以领取不同额度的满减优惠券,叠加折扣优惠。用户购买WoSign SSL证书,如何叠加才能更加优惠呢?
992 3
|
7天前
|
数据采集 人工智能 API
Qwen2.5-Coder深夜开源炸场,Prompt编程的时代来了!
通义千问团队开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列,致力于持续推动 Open Code LLMs 的发展。
|
12天前
|
机器学习/深度学习 存储 人工智能
白话文讲解大模型| Attention is all you need
本文档旨在详细阐述当前主流的大模型技术架构如Transformer架构。我们将从技术概述、架构介绍到具体模型实现等多个角度进行讲解。通过本文档,我们期望为读者提供一个全面的理解,帮助大家掌握大模型的工作原理,增强与客户沟通的技术基础。本文档适合对大模型感兴趣的人员阅读。
445 18
白话文讲解大模型| Attention is all you need
|
13天前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
663 10
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎