消费级显卡,17G显存,玩转图像生成模型FLUX.1!

简介: 近期stable diffusion的部分核心开发同学,推出了全新的图像生成模型FLUX.1。

引言

近期stable diffusion的部分核心开发同学,推出了全新的图像生成模型FLUX.1

从模型架构上看,FLUX.1和SD3有很多相似之处,都是基于FlowingMatching调度的模型,都通过引入T5来增强prompt的依从性。而比较显著的区别在于:flux模型引入了一种叫DoubleStreamBlock的结构,具体来说在前几层layer中,采用了txt和img embedding独立过各自的transformer块,然后再拼到一起过统一的transformer块,我们推测是为了进一步对齐图像和文本特征,但是这部分还没有更具体的技术报告。

FLUX.1在文本控制能力,多主体生成能力,手部生成能力等取得了很好的效果。

FLUX.1提供三种型号:

模型版本

模型链接

License

FLUX.1 [schnell]

https://modelscope.cn/models/AI-ModelScope/FLUX.1-schnell

apache-2.0

FLUX.1 [dev]

https://modelscope.cn/models/AI-ModelScope/FLUX.1-dev

FLUX.1-dev Non-Commercial License

FLUX.1 [pro]

仅可通过API访问

AutoDecoder的权重也在模型repo中一起开源,且开源协议为Apache-2.0。

因为dev版本模型size达到12B,为了可以在消费级显卡使用,社区开发者也分享了fp8版本。

fp8模型链接:https://modelscope.cn/models/AI-ModelScope/flux-fp8

代码链接:https://github.com/black-forest-labs/flux

非常感谢阿里muse团队的魔搭体验链接!

体验链接:https://www.modelscope.cn/studios/muse/flux_dev

小程序也可以使用哦~搜索应用同名即可

实战教程

除了在魔搭创空间上直接体验之外,这里我们提供基于ComfyUI的FLUX模型上手使用体验。ComfyUI是一个功能强大、模块化程度高的AIGC图形和视频生成的用户界面和后台。本文使用ComfyUI,在魔搭社区提供的免费GPU Notebook上,体验FLUX模型的使用:

下载和部署ComfyUI

clone代码,并安装相关依赖:

#@title Environment Setup
from pathlib import Path
OPTIONS = {}
UPDATE_COMFY_UI = True  #@param {type:"boolean"}
WORKSPACE = 'ComfyUI'
OPTIONS['UPDATE_COMFY_UI'] = UPDATE_COMFY_UI
WORKSPACE = "/mnt/workspace/ComfyUI"
%cd /mnt/workspace/
![ ! -d $WORKSPACE ] && echo -= Initial setup ComfyUI =- && git clone https://github.com/comfyanonymous/ComfyUI
%cd $WORKSPACE
if OPTIONS['UPDATE_COMFY_UI']:
  !echo -= Updating ComfyUI =-
  !git pull
!echo -= Install dependencies =-

模型下载

#@markdown ###Download standard resources
### FLUX1-DEV
!modelscope download --model=AI-ModelScope/FLUX.1-dev --local_dir ./models/unet/ flux1-dev.sft
!modelscope download --model=AI-ModelScope/flux-fp8 --local_dir ./models/unet/ flux1-dev-fp8.safetensors
### Download text encoder model
!modelscope download --model=AI-ModelScope/flux_text_encoders --local_dir ./models/clip/ t5xxl_fp16.safetensors
!modelscope download --model=AI-ModelScope/flux_text_encoders --local_dir ./models/clip/ clip_l.safetensors
!modelscope download --model=AI-ModelScope/flux_text_encoders --local_dir ./models/clip/ t5xxl_fp8_e4m3fn.safetensors
### vae
!modelscope download --model=AI-ModelScope/FLUX.1-dev --local_dir ./models/vae/ ae.sft

使用cloudflared运行ComfyUI

!wget "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/cloudflared-linux-amd64.deb"
!dpkg -i cloudflared-linux-amd64.deb
import subprocess
import threading
import time
import socket
import urllib.request
def iframe_thread(port):
  while True:
      time.sleep(0.5)
      sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
      result = sock.connect_ex(('127.0.0.1', port))
      if result == 0:
        break
      sock.close()
  print("\nComfyUI finished loading, trying to launch cloudflared (if it gets stuck here cloudflared is having issues)\n")
  p = subprocess.Popen(["cloudflared", "tunnel", "--url", "http://127.0.0.1:{}".format(port)], stdout=subprocess.PIPE, stderr=subprocess.PIPE)
  for line in p.stderr:
    l = line.decode()
    if "trycloudflare.com " in l:
      print("This is the URL to access ComfyUI:", l[l.find("http"):], end='')
    #print(l, end='')
threading.Thread(target=iframe_thread, daemon=True, args=(8188,)).start()
!python main.py --dont-print-server

Load流程图

flux1-dev流程图:

https://modelscope.oss-cn-beijing.aliyuncs.com/resource/flux1-dev-test.json

flux1-schnell流程图:

https://modelscope.oss-cn-beijing.aliyuncs.com/resource/flux1-schnell-test.json

流程图上具体配置如下:

简单 Prompt

复杂 Prompt

多实体生成能力很能打,颜色能做到分别控制,空间关系还算OK

多风格

风格上,个人认为风格属性一般。比如没有很好理解中国水墨画风格。

文本

能处理较长英文文本,可以展示换行文本,依然需要cherry pick,但成功率非常高。

多样性

没有训死,多样性还在

tag未来是否还需要?

还有一个好玩的case,提示词里加了 best quality,然后它真的标了个 best quality。


相关文章
|
物联网 测试技术 API
用消费级显卡微调属于自己的Agent
本文为魔搭社区轻量级训练推理工具SWIFT微调实战教程系列
|
机器学习/深度学习 缓存 并行计算
NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比
NVIDIA Tesla系列GPU适用于高性能计算(HPC)、深度学习等超大规模数据计算,Tesla系列GPU能够处理解析PB级的数据,速度比使用传统CPU快几个数量级,NVIDIA Tesla GPU系列P4、T4、P40以及V100是Tesla GPU系列的明星产品,云服务器吧分享NVIDIA.
83444 1
|
12月前
|
编解码 物联网 计算机视觉
实战 | 猫猫、少女、FLUX、ControlNet
魔搭社区集结了来自多个组织的 FLUX ControlNet 模型,魔搭社区的开源项目 DiffSynth-Studio 为这些模型提供了支持,今天就随我们一起,体验一下这些 FLUX ControlNet 模型的神奇生成能力。
|
11月前
|
JavaScript 计算机视觉
FLUX.1 Tools 全家桶开源!文末附一键ComfyUI启动链接
Black Forest Labs 发布了 FLUX.1 Tools,一套增强 FLUX.1 文本转图像模型的工具集,包括 FLUX.1 Fill、FLUX.1 Depth、FLUX.1 Canny 和 FLUX.1 Redux,分别用于图像修复、深度引导、边缘检测和图像重组。提供详细的安装指南和模型下载链接,支持用户快速上手并优化图像处理流程。
3869 4
FLUX.1 Tools 全家桶开源!文末附一键ComfyUI启动链接
|
JSON 人工智能 物联网
西游再现,一键部署 Flux 文生图大模型生成西游人物
从花果山的灵石出世,到取经路上的九九八十一难,再到大闹天宫的惊心动魄……这些耳熟能详的西游场景,如今都能通过 Flux 模型,以超乎想象的细节和真实感呈现在你眼前。本次实验在函数计算中内置的 flux.1-dev-fp8 大模型,搭配 Lora 模型,无需复杂的配置,一键部署,你就能成为这场视觉盛宴的创造者。
647 18
|
存储 小程序 物联网
|
12月前
|
编解码 人工智能 并行计算
阿里妈妈技术开源FLUX图像修复&蒸馏加速模型
本文介绍了阿里妈妈技术团队基于FLUX开发的Controlnet修复模型和蒸馏加速模型,填补了社区空白并提升了FLUX的实用性和效率。
|
人工智能 自然语言处理 API
阿里云百炼平台上线首个最新文生图模型FLUX中文优化版
由Stable Diffusion团队推出的开源文生图模型FLUX风靡全球,其生成质量媲美Midjourney,被誉为“开源王者”。阿里云百炼平台首发FLUX中文优化版,提升了中文指令的理解与执行能力。开发者可直接在平台上体验并调用FLUX模型,且享有1000张图像的免费生成额度,有效期180天。无需额外部署,即可轻松利用这一先进模型创造高质量图像。
1723 0
|
人工智能 物联网
关于flux.1 loras的8个问题
Flux LoRA是一系列用于微调FLUX.1 AI模型的低阶适应模型,专为生成多样风格图像设计,如现实主义、动漫或艺术风格。LoRA通过调整模型权重实现特定美学或主题输出,无需大量再训练。Flux LoRA能创作从真实场景到幻想风光的各种图像,具体取决于选用的LoRA及输入提示。模型许可各不相同,使用前需确认授权范围。用户可通过ComfyUI等界面轻松集成LoRA模型。流行模型包括Flux Realism LoRA、Anime LoRA等。亦可利用自定义数据集训练个人化的LoRA。FLUX Lora提供在线免费试用。
|
存储 机器学习/深度学习 SQL
【Prompt Engineering:自我反思(Reflexion)】
自我反思(Reflexion)是一种通过语言反馈强化基于语言的智能体的新范式,无需微调模型即可提升其在决策、推理和编程等任务中的表现。该框架包括参与者(生成动作)、评估者(评分)和自我反思(生成反馈)三个部分,利用大语言模型生成具体反馈,帮助智能体从错误中快速学习,显著提高了多种任务的性能。
1185 2
【Prompt Engineering:自我反思(Reflexion)】