❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
大家好,我是蚝油菜花,今天跟大家分享一下 Lumina-Image 2.0 这个由上海 AI Lab 开源的高效统一图像生成模型。
🚀 快速阅读
Lumina-Image 2.0 是一个开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构。
- 核心功能:支持高质量图像生成、多语言提示词、复杂提示词理解和多种推理求解器。
- 技术原理:采用扩散模型和Transformer架构,结合中点求解器、欧拉求解器和DPM求解器,优化训练与推理流程。
Lumina-Image 2.0 是什么
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构。该模型在图像生成质量、复杂提示理解和资源效率方面表现出色,能够根据文本描述生成高质量、多风格的图像。模型支持多种推理求解器,如中点求解器、欧拉求解器和DPM求解器,生成速度较快。
Lumina-Image 2.0 在文本对齐能力上达到了行业领先水平,能够生成逼真的写真、艺术字、风格化图像等,并且支持中英双语提示词,可以根据不同语言的描述生成对应的图像。此外,模型还已实现对ComfyUI的原生支持,用户可以通过ComfyUI直接使用该模型。
Lumina-Image 2.0 的主要功能
- 高质量图像生成:能生成高质量的写真、艺术字、风格化图像、逻辑推理图像等。
- 多语言支持:支持中英双语提示词,可根据不同语言的描述生成对应的图像。
- 复杂提示词理解:对动物、人物表情等复杂提示词的理解和展示能力较强,能更准确地根据文本描述生成图像。
- 多种推理求解器支持:支持中点求解器、欧拉求解器和DPM求解器等多种推理求解器。
- 艺术性和风格表现:在艺术性和风格表现上表现出色,能生成多种风格的图像。
- 与ComfyUI集成:已实现对ComfyUI的原生支持,用户可以通过ComfyUI直接使用该模型。
Lumina-Image 2.0 的技术原理
- 扩散模型:Lumina-Image 2.0 使用了基于流的扩散模型(Flow-based Diffusion Model),通过逐步去除噪声来生成图像。具体来说,先将图像数据添加高斯噪声,然后通过训练一个神经网络来逐步去除这些噪声,最终恢复出清晰的图像。
- Transformer 架构:Lumina-Image 2.0 的核心架构是 Transformer,能处理长距离依赖关系,对文本提示的理解能力更强。使用了 Gemma-2-2B 作为文本编码器,能高效地将文本提示转化为图像生成所需的特征。模型采用 FLUX-VAE-16CH 作为 VAE(变分自编码器),用于高效地编码和解码图像。
- 多种求解器支持:为了提高生成效率和质量,Lumina-Image 2.0 支持多种推理求解器,包括中点求解器(Midpoint Solver)、欧拉求解器(Euler Solver)和 DPM 求解器。可以根据不同的生成需求和资源限制进行选择,在速度和质量之间取得平衡。
- 高效的训练与推理:Lumina-Image 2.0 的参数量为 26 亿,相对较小的参数量在资源效率方面表现出色。模型通过优化训练流程和推理方法,能在保持高质量生成的同时,降低计算资源的消耗。
如何运行 Lumina-Image 2.0
1. 创建 Conda 环境并安装 PyTorch
conda create -n Lumina2 -y
conda activate Lumina2
conda install python=3.11 pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia -y
2. 安装依赖项
pip install -r requirements.txt
3. 安装 flash-attn
pip install flash-attn --no-build-isolation
4. 准备数据
你可以将数据文件的链接放在 ./configs/data.yaml
中。图像-文本对训练数据格式应遵循以下格式:
{
"image_path": "path/to/your/image",
"prompt": "a description of the image"
}
5. 开始微调
bash scripts/run_1024_finetune.sh
6. 推理代码
我们支持多种求解器,包括中点求解器、欧拉求解器和 DPM 求解器。
Gradio Demo
python demo.py \ --ckpt /path/to/your/ckpt \ --res 1024 \ --port 12123
直接批量推理
bash scripts/sample.sh
资源
- GitHub 仓库:https://github.com/Alpha-VLLM/Lumina-Image-2.0
- HuggingFace 仓库:https://huggingface.co/Alpha-VLLM/Lumina-Image-2.0
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 微信公众号|搜一搜:蚝油菜花 🥦