消费级显卡,17G显存,玩转图像生成模型FLUX.1!

简介: 近期stable diffusion的部分核心开发同学,推出了全新的图像生成模型FLUX.1。

引言

近期stable diffusion的部分核心开发同学,推出了全新的图像生成模型FLUX.1

从模型架构上看,FLUX.1和SD3有很多相似之处,都是基于FlowingMatching调度的模型,都通过引入T5来增强prompt的依从性。而比较显著的区别在于:flux模型引入了一种叫DoubleStreamBlock的结构,具体来说在前几层layer中,采用了txt和img embedding独立过各自的transformer块,然后再拼到一起过统一的transformer块,我们推测是为了进一步对齐图像和文本特征,但是这部分还没有更具体的技术报告。

FLUX.1在文本控制能力,多主体生成能力,手部生成能力等取得了很好的效果。

FLUX.1提供三种型号:

模型版本

模型链接

License

FLUX.1 [schnell]

https://modelscope.cn/models/AI-ModelScope/FLUX.1-schnell

apache-2.0

FLUX.1 [dev]

https://modelscope.cn/models/AI-ModelScope/FLUX.1-dev

FLUX.1-dev Non-Commercial License

FLUX.1 [pro]

仅可通过API访问

AutoDecoder的权重也在模型repo中一起开源,且开源协议为Apache-2.0。

因为dev版本模型size达到12B,为了可以在消费级显卡使用,社区开发者也分享了fp8版本。

fp8模型链接:https://modelscope.cn/models/AI-ModelScope/flux-fp8

代码链接:https://github.com/black-forest-labs/flux

非常感谢阿里muse团队的魔搭体验链接!

体验链接:https://www.modelscope.cn/studios/muse/flux_dev

小程序也可以使用哦~搜索应用同名即可

实战教程

除了在魔搭创空间上直接体验之外,这里我们提供基于ComfyUI的FLUX模型上手使用体验。ComfyUI是一个功能强大、模块化程度高的AIGC图形和视频生成的用户界面和后台。本文使用ComfyUI,在魔搭社区提供的免费GPU Notebook上,体验FLUX模型的使用:

下载和部署ComfyUI

clone代码,并安装相关依赖:

#@title Environment Setup
from pathlib import Path
OPTIONS = {}
UPDATE_COMFY_UI = True  #@param {type:"boolean"}
WORKSPACE = 'ComfyUI'
OPTIONS['UPDATE_COMFY_UI'] = UPDATE_COMFY_UI
WORKSPACE = "/mnt/workspace/ComfyUI"
%cd /mnt/workspace/
![ ! -d $WORKSPACE ] && echo -= Initial setup ComfyUI =- && git clone https://github.com/comfyanonymous/ComfyUI
%cd $WORKSPACE
if OPTIONS['UPDATE_COMFY_UI']:
  !echo -= Updating ComfyUI =-
  !git pull
!echo -= Install dependencies =-

模型下载

#@markdown ###Download standard resources
### FLUX1-DEV
!modelscope download --model=AI-ModelScope/FLUX.1-dev --local_dir ./models/unet/ flux1-dev.sft
!modelscope download --model=AI-ModelScope/flux-fp8 --local_dir ./models/unet/ flux1-dev-fp8.safetensors
### Download text encoder model
!modelscope download --model=AI-ModelScope/flux_text_encoders --local_dir ./models/clip/ t5xxl_fp16.safetensors
!modelscope download --model=AI-ModelScope/flux_text_encoders --local_dir ./models/clip/ clip_l.safetensors
!modelscope download --model=AI-ModelScope/flux_text_encoders --local_dir ./models/clip/ t5xxl_fp8_e4m3fn.safetensors
### vae
!modelscope download --model=AI-ModelScope/FLUX.1-dev --local_dir ./models/vae/ ae.sft

使用cloudflared运行ComfyUI

!wget "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/cloudflared-linux-amd64.deb"
!dpkg -i cloudflared-linux-amd64.deb
import subprocess
import threading
import time
import socket
import urllib.request
def iframe_thread(port):
  while True:
      time.sleep(0.5)
      sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
      result = sock.connect_ex(('127.0.0.1', port))
      if result == 0:
        break
      sock.close()
  print("\nComfyUI finished loading, trying to launch cloudflared (if it gets stuck here cloudflared is having issues)\n")
  p = subprocess.Popen(["cloudflared", "tunnel", "--url", "http://127.0.0.1:{}".format(port)], stdout=subprocess.PIPE, stderr=subprocess.PIPE)
  for line in p.stderr:
    l = line.decode()
    if "trycloudflare.com " in l:
      print("This is the URL to access ComfyUI:", l[l.find("http"):], end='')
    #print(l, end='')
threading.Thread(target=iframe_thread, daemon=True, args=(8188,)).start()
!python main.py --dont-print-server

Load流程图

flux1-dev流程图:

https://modelscope.oss-cn-beijing.aliyuncs.com/resource/flux1-dev-test.json

flux1-schnell流程图:

https://modelscope.oss-cn-beijing.aliyuncs.com/resource/flux1-schnell-test.json

流程图上具体配置如下:

简单 Prompt

复杂 Prompt

多实体生成能力很能打,颜色能做到分别控制,空间关系还算OK

多风格

风格上,个人认为风格属性一般。比如没有很好理解中国水墨画风格。

文本

能处理较长英文文本,可以展示换行文本,依然需要cherry pick,但成功率非常高。

多样性

没有训死,多样性还在

tag未来是否还需要?

还有一个好玩的case,提示词里加了 best quality,然后它真的标了个 best quality。


相关文章
|
人工智能 自然语言处理 前端开发
AI 绘画Stable Diffusion 研究(十)sd图生图功能详解-精美二维码的制作
AI 绘画Stable Diffusion 研究(十)sd图生图功能详解-精美二维码的制作
1528 1
|
人工智能
【奶奶看了都会】ComfyUI+SVD制作AI视频教程,附效果演示
AI一天,人间一年。大家好啊,我是小卷,最近AI绘画又发展出一些新玩意了,小卷因为工作的关系有一个月没关注AI的发展了,都有点跟不上版本节奏了。。。
2553 2
【奶奶看了都会】ComfyUI+SVD制作AI视频教程,附效果演示
|
人工智能 算法 物联网
ComfyUI:搭积木一样构建专属于自己的AIGC工作流(保姆级教程)
通过本篇文章,你可以了解并实践通过【ComfyUI】构建自己的【文生图】和【文生动图】工作流。
24772 5
ComfyUI:搭积木一样构建专属于自己的AIGC工作流(保姆级教程)
|
6月前
|
编解码 并行计算 物联网
【实战教程】Flux.1-dev 360° 全景驾驶舱:从零到一的“零坑”部署指南
本教程教你如何在24G显存单卡环境下部署超大文生图模型Flux.1-dev。通过ModelScope极速下载、Hugging Face身份鉴权与显存顺序卸载技术,解决下载慢、授权难、显存溢出等问题,实现稳定推理。
961 1
|
10月前
|
存储 人工智能 Serverless
FunctionAI 图像生成:简化从灵感到 API 调用的每一步
FunctionAI 图像生成服务助力企业突破AI图像应用的三大难题:高成本算力、复杂运维与工程化壁垒。基于Serverless架构,提供从项目开发到API调用的全生命周期管理,支持ComfyUI、Stable Diffusion等主流工具,实现“一键部署、秒级调试、快速上线”。弹性伸缩、按需付费,大幅降低成本;国内网络加速、模型缓存、安全隔离,保障高效与稳定。让创意从灵感到生产无缝转化,真正驱动业务增长。
|
开发者 异构计算
高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!
通义万相Wan2.1开源不到一周,已登顶HuggingFace Model 和 Space 榜双榜首,在HuggingFace和ModelScope平台的累计下载量突破100万次,社区热度持续攀升!为响应小伙伴们对ComfyUI工作流运行Wan2.1的强烈需求,社区开发者整理了实战教程👇
14846 23
高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!
|
人工智能 JSON 自然语言处理
一键生成毛茸萌宠形象,基于函数计算极速部署 ComfyUI 生图系统
本次方案将帮助大家实现使用阿里云产品函数计算FC,只需简单操作,就可以快速配置ComfyUI大模型,创建出你的专属毛茸茸萌宠形象。内置基础大模型+常用插件+部分 Lora,以风格化图像生成只需用户让体验键配置简单方便,后续您可以根据自己的需要更换需要的模型、Lora、增加插件。
1172 14
|
存储 小程序 物联网
|
编解码 人工智能 安全
快来试试这个开箱即用的万相2.1服务!!!
阿里云万相2.1系列提供高效灵活的视频生成解决方案,支持文生视频、图生视频等多模态任务。通过阿里云计算巢与ComfyUI推出的快速视频生成服务,用户可轻松制作微电影或短视频。针对长视频生成,提供了三种方法:使用高性能显卡、首尾帧拼接和补帧模型。此外,还内置工作流实现文生图和图生图功能,简单易用。部署说明及使用流程详细列出,方便开发者快速上手。访问计算巢了解更多有趣服务。