FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑

简介: Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。

Black Forest Labs开源了FLUX.2 [klein]模型家族,这是目前最快的图像生成模型系列。该系列在单一紧凑架构中统一了生成和编辑能力,在现代硬件上实现端到端推理低至0.5秒以内,同时在消费级GPU上仅需13GB显存即可运行。


开源地址

GitHub:https://github.com/black-forest-labs/flux2

ModelScope:

https://modelscope.cn/collections/black-forest-labs/FLUX-2-Klein

核心特性

  • 亚秒级推理速度 在现代硬件上,生成或编辑图像耗时低于0.5秒,大幅提升实时应用的响应速度。
  • 统一生成与编辑架构 单一模型支持文生图(Text-to-Image)、图像编辑(Image-to-Image)和多参考图像生成,无需切换不同模型即可完成复杂的视觉任务。
  • 消费级硬件友好 4B模型在RTX 3090/4070及以上显卡运行时仅占用约13GB显存,降低了开发和部署门槛。
  • 高质量输出 在质量与延迟的帕累托前沿上表现优异,9B版本的性能可与5倍参数规模的模型匹敌。
  • 完全开源与商业友好 4B系列采用Apache 2.0许可证,支持商业使用;9B系列采用FLUX非商业许可证,适用于研究和非商业场景。
  • 量化加速支持 提供FP8和NVFP4量化版本,在RTX GPU上分别实现最高1.6倍和2.7倍的推理加速,显存占用分别降低40%和55%。

文生图效果


图片编辑效果


开源模型系列

模型家族概览

FLUX.2 [klein]系列包含以下模型:

模型 参数量 推理步数 许可证 适用场景
FLUX.2 [klein] 9B 9B流模型 + 8B文本编码器 4步(蒸馏) FLUX NCL 高质量实时生成与编辑
FLUX.2 [klein] 4B 4B 4步(蒸馏) Apache 2.0 本地开发、边缘部署
FLUX.2 [klein] Base 9B 9B流模型 + 8B文本编码器 未蒸馏 FLUX NCL 微调、LoRA训练、研究
FLUX.2 [klein] Base 4B 4B 未蒸馏 Apache 2.0 微调、LoRA训练、研究

注:

  • "klein"在德语中意为"小",反映了模型的紧凑规模和低延迟特性。
  • 蒸馏版 vs Base版:
  • 蒸馏版(9B/4B):经过步骤蒸馏优化至4步推理,速度更快,适合生产环境直接使用
  • Base版(9B Base/4B Base):保留完整训练信号,输出多样性更高,适合微调和定制化开发

量化版本模型家族

本次开源同时发布了所有 [klein] 变体的 FP8 和 NVFP4 版本,这些版本是与 NVIDIA 合作开发的,旨在优化 RTX GPU 上的推理性能。功能相同,占用空间更小,并且兼容更多硬件。

  • FP8版本:速度提升最高1.6倍,显存占用减少最高40%
  • NVFP4版本:速度提升最高2.7倍,显存占用减少最高55%

注:在RTX 5080/5090上测试T2I,生成分辨率为1024×1024。

量化版本模型适用相同的许可证:4B 变体采用 Apache 2.0 许可证,9B 变体采用 FLUX NCL 许可证。

核心技术

FLUX.2 [klein] 9B基于9B参数的流模型(Flow Model)构建,集成8B Qwen3文本编码器用于文本理解。通过步骤蒸馏(Step Distillation)技术,将推理步数压缩至4步,在保持高质量输出的同时大幅降低推理延迟。

模型采用统一架构处理多种视觉任务:

  • 文生图:根据文本描述生成高质量图像
  • 单参考编辑:基于单张参考图进行编辑和变换
  • 多参考生成:结合多张输入图像,混合概念并生成复杂组合

Base版本保留了完整的训练信号,未经蒸馏处理,为微调、LoRA训练和自定义流程提供了最大的灵活性和控制能力。这种设计使得研究人员和开发者可以根据特定需求进行深度定制。

性能表现核心技术

基准测试显示,FLUX.2 [klein]在Elo评分、推理延迟和显存占用三个维度上均实现了优异平衡:

  • 在文生图、图生图单参考和多参考任务中,匹配或超越Qwen等同类模型的质量,延迟和显存占用仅为其一小部分
  • 相比Z-Image,不仅质量更优,还在单一模型中支持文生图和多参考图像编辑
  • GB200上bf16精度测试显示,蒸馏版在速度上显著领先,Base版在保持合理速度的同时提供了完整的定制能力



模型推理

模型下载

modelscope download --model black-forest-labs/FLUX.2-klein-9B
modelscope download --model black-forest-labs/FLUX.2-klein-4B

环境安装

pip install -U diffusers

推理脚本

import torch
from diffusers import Flux2KleinPipeline
device = "cuda"
dtype = torch.bfloat16
pipe = Flux2KleinPipeline.from_pretrained("black-forest-labs/FLUX.2-klein-4B", torch_dtype=dtype)
pipe.enable_model_cpu_offload()  # save some VRAM by offloading the model to CPU
prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=1.0,
    num_inference_steps=4,
    generator=torch.Generator(device=device).manual_seed(0)
).images[0]
image.save("flux-klein.png")

显存占用

  • FLUX.2 [klein] 4B:大约需要13GB,推荐NVIDIA RTX 3090/4070以上规格的显卡
  • FLUX.2 [klein] 9B:大约需要29G存,推荐NVIDIA RTX 4090以上规格的显卡


总结

FLUX.2 [klein]通过紧凑的架构和高效的推理能力,为实时视觉生成应用提供了新的可能性。模型在开源友好性、硬件要求和生成质量之间实现了良好平衡,适用于从本地开发到生产部署的多种场景。Base版本的完全开放为研究和定制化需求提供了充分的灵活性。


点击即可跳转模型合集

https://modelscope.cn/collections/black-forest-labs/FLUX-2-Klein

目录
相关文章
|
30天前
|
机器学习/深度学习 存储 人工智能
国内首个全国产化千亿参数细粒度 MoE:开源!
TeleChat3-105B-A4.7-Thinking,国内首个全国产化千亿参数细粒度MoE大模型,开源!代码、数学、Agent等多能力比肩头部,支持高效任务拆解与代码生成。
176 2
国内首个全国产化千亿参数细粒度 MoE:开源!
|
24天前
|
人工智能 自然语言处理 物联网
Qwen-Image 从推理到 LoRA 训练实战教程(AMD GPU × DiffSynth-Studio)
本课程由魔搭社区出品,详解如何在AMD GPU上基于DiffSynth-Studio框架高效部署、微调与训练Qwen-Image系列大模型(860亿参数)。涵盖文生图推理、LoRA画质增强、多语言提示理解、高一致性人像外延及多图融合编辑,并支持从零训练专属LoRA(如定制狗狗生成)。
579 40
|
1月前
|
自然语言处理 物联网 计算机视觉
从 Image-to-LoRA 到 In-Context Edit
阿里发布Qwen-Image-Edit-2511-ICEdit-LoRA模型,通过上下文内编辑技术,利用“编辑前后图像对”实现图像编辑能力迁移。该模型仅需少量样本即可训练,支持风格、光照、表情等复杂编辑,并可拓展至图像分割等视觉任务,未来将持续优化与应用探索。
364 6
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
3722 9
|
3月前
|
人工智能 物联网 测试技术
Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效
通义千问团队开源Qwen-Image-Edit,基于20B模型,支持语义与外观双重编辑、精准中英文文字修改,具备SOTA图像编辑能力,可用于IP创作、风格迁移、文字修复等。
2724 6
|
16天前
|
机器学习/深度学习 人工智能 算法
首个2步LoRA!2步实现Qwen-Image-2512高质量图片生成
阿里智能引擎推出Qwen-Image-2512-Turbo,将扩散模型压缩至仅2步生成,提速40倍——5秒内输出4张2K图,效果媲美原模型。融合Reverse-KL蒸馏、热启动与对抗学习,显著提升细节与真实性。已开源,支持ModelScope、呜哩AI及ComfyUI。
264 0
|
3月前
|
编解码 物联网 API
码上生花:用API链接Qwen-Image系列及衍生LoRA生态模型
Qwen-Image系列开源三月成爆款,凭借中文场景优势与ModelScope平台深度集成,支持文生图、图像编辑及LoRA生态API调用,助力开发者高效创作。
1279 1
|
16天前
|
JSON 文字识别 API
百度文心开源0.9B参数 PaddleOCR-VL-1.5,全球首个支持异形框定位的文档解析模型!
百度文心开源新一代文档解析模型PaddleOCR-VL-1.5:仅0.9B参数,在OmniDocBench v1.5达94.5%精度,全球首个支持异形框定位,精准识别倾斜、弯折、反光等“歪文档”,集成印章识别、多语种(含藏语/孟加拉语)及古籍解析能力,推理速度超MinerU2.5达43%。(239字)
273 2
|
1月前
|
人工智能 数据可视化 物联网
《显卡 4090 就能跑!小白也能炼出私有大模型》
大模型微调是AI落地的关键技术,通过定向训练让通用模型在特定领域“从会到精”。本文详解微调原理、LoRA/QLoRA等高效方法,并提供评估与实操建议,助力新手快速上手,实现低成本、高精度的模型定制。
357 4

热门文章

最新文章