FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑

简介: Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。

Black Forest Labs开源了FLUX.2 [klein]模型家族,这是目前最快的图像生成模型系列。该系列在单一紧凑架构中统一了生成和编辑能力,在现代硬件上实现端到端推理低至0.5秒以内,同时在消费级GPU上仅需13GB显存即可运行。


开源地址

GitHub:https://github.com/black-forest-labs/flux2

ModelScope:

https://modelscope.cn/collections/black-forest-labs/FLUX-2-Klein

核心特性

  • 亚秒级推理速度 在现代硬件上,生成或编辑图像耗时低于0.5秒,大幅提升实时应用的响应速度。
  • 统一生成与编辑架构 单一模型支持文生图(Text-to-Image)、图像编辑(Image-to-Image)和多参考图像生成,无需切换不同模型即可完成复杂的视觉任务。
  • 消费级硬件友好 4B模型在RTX 3090/4070及以上显卡运行时仅占用约13GB显存,降低了开发和部署门槛。
  • 高质量输出 在质量与延迟的帕累托前沿上表现优异,9B版本的性能可与5倍参数规模的模型匹敌。
  • 完全开源与商业友好 4B系列采用Apache 2.0许可证,支持商业使用;9B系列采用FLUX非商业许可证,适用于研究和非商业场景。
  • 量化加速支持 提供FP8和NVFP4量化版本,在RTX GPU上分别实现最高1.6倍和2.7倍的推理加速,显存占用分别降低40%和55%。

文生图效果


图片编辑效果


开源模型系列

模型家族概览

FLUX.2 [klein]系列包含以下模型:

模型 参数量 推理步数 许可证 适用场景
FLUX.2 [klein] 9B 9B流模型 + 8B文本编码器 4步(蒸馏) FLUX NCL 高质量实时生成与编辑
FLUX.2 [klein] 4B 4B 4步(蒸馏) Apache 2.0 本地开发、边缘部署
FLUX.2 [klein] Base 9B 9B流模型 + 8B文本编码器 未蒸馏 FLUX NCL 微调、LoRA训练、研究
FLUX.2 [klein] Base 4B 4B 未蒸馏 Apache 2.0 微调、LoRA训练、研究

注:

  • "klein"在德语中意为"小",反映了模型的紧凑规模和低延迟特性。
  • 蒸馏版 vs Base版:
  • 蒸馏版(9B/4B):经过步骤蒸馏优化至4步推理,速度更快,适合生产环境直接使用
  • Base版(9B Base/4B Base):保留完整训练信号,输出多样性更高,适合微调和定制化开发

量化版本模型家族

本次开源同时发布了所有 [klein] 变体的 FP8 和 NVFP4 版本,这些版本是与 NVIDIA 合作开发的,旨在优化 RTX GPU 上的推理性能。功能相同,占用空间更小,并且兼容更多硬件。

  • FP8版本:速度提升最高1.6倍,显存占用减少最高40%
  • NVFP4版本:速度提升最高2.7倍,显存占用减少最高55%

注:在RTX 5080/5090上测试T2I,生成分辨率为1024×1024。

量化版本模型适用相同的许可证:4B 变体采用 Apache 2.0 许可证,9B 变体采用 FLUX NCL 许可证。

核心技术

FLUX.2 [klein] 9B基于9B参数的流模型(Flow Model)构建,集成8B Qwen3文本编码器用于文本理解。通过步骤蒸馏(Step Distillation)技术,将推理步数压缩至4步,在保持高质量输出的同时大幅降低推理延迟。

模型采用统一架构处理多种视觉任务:

  • 文生图:根据文本描述生成高质量图像
  • 单参考编辑:基于单张参考图进行编辑和变换
  • 多参考生成:结合多张输入图像,混合概念并生成复杂组合

Base版本保留了完整的训练信号,未经蒸馏处理,为微调、LoRA训练和自定义流程提供了最大的灵活性和控制能力。这种设计使得研究人员和开发者可以根据特定需求进行深度定制。

性能表现核心技术

基准测试显示,FLUX.2 [klein]在Elo评分、推理延迟和显存占用三个维度上均实现了优异平衡:

  • 在文生图、图生图单参考和多参考任务中,匹配或超越Qwen等同类模型的质量,延迟和显存占用仅为其一小部分
  • 相比Z-Image,不仅质量更优,还在单一模型中支持文生图和多参考图像编辑
  • GB200上bf16精度测试显示,蒸馏版在速度上显著领先,Base版在保持合理速度的同时提供了完整的定制能力



模型推理

模型下载

modelscope download --model black-forest-labs/FLUX.2-klein-9B
modelscope download --model black-forest-labs/FLUX.2-klein-4B

环境安装

pip install -U diffusers

推理脚本

import torch
from diffusers import Flux2KleinPipeline
device = "cuda"
dtype = torch.bfloat16
pipe = Flux2KleinPipeline.from_pretrained("black-forest-labs/FLUX.2-klein-4B", torch_dtype=dtype)
pipe.enable_model_cpu_offload()  # save some VRAM by offloading the model to CPU
prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=1.0,
    num_inference_steps=4,
    generator=torch.Generator(device=device).manual_seed(0)
).images[0]
image.save("flux-klein.png")

显存占用

  • FLUX.2 [klein] 4B:大约需要13GB,推荐NVIDIA RTX 3090/4070以上规格的显卡
  • FLUX.2 [klein] 9B:大约需要29G存,推荐NVIDIA RTX 4090以上规格的显卡


总结

FLUX.2 [klein]通过紧凑的架构和高效的推理能力,为实时视觉生成应用提供了新的可能性。模型在开源友好性、硬件要求和生成质量之间实现了良好平衡,适用于从本地开发到生产部署的多种场景。Base版本的完全开放为研究和定制化需求提供了充分的灵活性。


点击即可跳转模型合集

https://modelscope.cn/collections/black-forest-labs/FLUX-2-Klein

目录
相关文章
|
2月前
|
自然语言处理 物联网 计算机视觉
从 Image-to-LoRA 到 In-Context Edit
阿里发布Qwen-Image-Edit-2511-ICEdit-LoRA模型,通过上下文内编辑技术,利用“编辑前后图像对”实现图像编辑能力迁移。该模型仅需少量样本即可训练,支持风格、光照、表情等复杂编辑,并可拓展至图像分割等视觉任务,未来将持续优化与应用探索。
468 6
|
1月前
|
机器学习/深度学习 人工智能 算法
首个2步LoRA!2步实现Qwen-Image-2512高质量图片生成
阿里智能引擎推出Qwen-Image-2512-Turbo,将扩散模型压缩至仅2步生成,提速40倍——5秒内输出4张2K图,效果媲美原模型。融合Reverse-KL蒸馏、热启动与对抗学习,显著提升细节与真实性。已开源,支持ModelScope、呜哩AI及ComfyUI。
685 0
|
4月前
|
人工智能 物联网 测试技术
Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效
通义千问团队开源Qwen-Image-Edit,基于20B模型,支持语义与外观双重编辑、精准中英文文字修改,具备SOTA图像编辑能力,可用于IP创作、风格迁移、文字修复等。
3789 6
|
2月前
|
机器学习/深度学习 存储 人工智能
国内首个全国产化千亿参数细粒度 MoE:开源!
TeleChat3-105B-A4.7-Thinking,国内首个全国产化千亿参数细粒度MoE大模型,开源!代码、数学、Agent等多能力比肩头部,支持高效任务拆解与代码生成。
262 2
国内首个全国产化千亿参数细粒度 MoE:开源!
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
4236 9
|
2月前
|
人工智能 开发者
Qwen-Image又登顶啦!
Qwen-Image-2512登顶Hugging Face趋势榜榜首,并在AI Arena稳居最强开源图像模型!新发布的Qwen-image-edit-202511也在Chatbot Arena获开源第一、全球第九。双榜佳绩,技术再突破!
406 0
|
4月前
|
编解码 物联网 API
码上生花:用API链接Qwen-Image系列及衍生LoRA生态模型
Qwen-Image系列开源三月成爆款,凭借中文场景优势与ModelScope平台深度集成,支持文生图、图像编辑及LoRA生态API调用,助力开发者高效创作。
1509 1
|
1月前
|
自然语言处理 测试技术 Python
小红书开源发布 FireRed-Image-Edit 1.0:高质量训练数据,性能屠榜三项核心评测
2月14日,小红书FireRedTeam开源FireRed-Image-Edit-1.0图像编辑模型。该模型在ImgEdit、GEdit等基准测试中全面超越现有开源方案,风格迁移(4.97分)等维度甚至优于Nano-Banana、Seedream4.0等闭源模型,支持文本保留、老照片修复、多图虚拟试衣等能力。
635 6

热门文章

最新文章