Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,视频通用资源包5000点
简介: Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 Lumina-Image 2.0 这个由上海 AI Lab 开源的高效统一图像生成模型。

🚀 快速阅读

Lumina-Image 2.0 是一个开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构。

  1. 核心功能:支持高质量图像生成、多语言提示词、复杂提示词理解和多种推理求解器。
  2. 技术原理:采用扩散模型和Transformer架构,结合中点求解器、欧拉求解器和DPM求解器,优化训练与推理流程。

Lumina-Image 2.0 是什么

Lumina-Image 2.0

Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构。该模型在图像生成质量、复杂提示理解和资源效率方面表现出色,能够根据文本描述生成高质量、多风格的图像。模型支持多种推理求解器,如中点求解器、欧拉求解器和DPM求解器,生成速度较快。

Lumina-Image 2.0 在文本对齐能力上达到了行业领先水平,能够生成逼真的写真、艺术字、风格化图像等,并且支持中英双语提示词,可以根据不同语言的描述生成对应的图像。此外,模型还已实现对ComfyUI的原生支持,用户可以通过ComfyUI直接使用该模型。

Lumina-Image 2.0 的主要功能

  • 高质量图像生成:能生成高质量的写真、艺术字、风格化图像、逻辑推理图像等。
  • 多语言支持:支持中英双语提示词,可根据不同语言的描述生成对应的图像。
  • 复杂提示词理解:对动物、人物表情等复杂提示词的理解和展示能力较强,能更准确地根据文本描述生成图像。
  • 多种推理求解器支持:支持中点求解器、欧拉求解器和DPM求解器等多种推理求解器。
  • 艺术性和风格表现:在艺术性和风格表现上表现出色,能生成多种风格的图像。
  • 与ComfyUI集成:已实现对ComfyUI的原生支持,用户可以通过ComfyUI直接使用该模型。

Lumina-Image 2.0 的技术原理

  • 扩散模型:Lumina-Image 2.0 使用了基于流的扩散模型(Flow-based Diffusion Model),通过逐步去除噪声来生成图像。具体来说,先将图像数据添加高斯噪声,然后通过训练一个神经网络来逐步去除这些噪声,最终恢复出清晰的图像。
  • Transformer 架构:Lumina-Image 2.0 的核心架构是 Transformer,能处理长距离依赖关系,对文本提示的理解能力更强。使用了 Gemma-2-2B 作为文本编码器,能高效地将文本提示转化为图像生成所需的特征。模型采用 FLUX-VAE-16CH 作为 VAE(变分自编码器),用于高效地编码和解码图像。
  • 多种求解器支持:为了提高生成效率和质量,Lumina-Image 2.0 支持多种推理求解器,包括中点求解器(Midpoint Solver)、欧拉求解器(Euler Solver)和 DPM 求解器。可以根据不同的生成需求和资源限制进行选择,在速度和质量之间取得平衡。
  • 高效的训练与推理:Lumina-Image 2.0 的参数量为 26 亿,相对较小的参数量在资源效率方面表现出色。模型通过优化训练流程和推理方法,能在保持高质量生成的同时,降低计算资源的消耗。

如何运行 Lumina-Image 2.0

1. 创建 Conda 环境并安装 PyTorch

conda create -n Lumina2 -y
conda activate Lumina2
conda install python=3.11 pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia -y
AI 代码解读

2. 安装依赖项

pip install -r requirements.txt
AI 代码解读

3. 安装 flash-attn

pip install flash-attn --no-build-isolation
AI 代码解读

4. 准备数据

你可以将数据文件的链接放在 ./configs/data.yaml 中。图像-文本对训练数据格式应遵循以下格式:

{
   
    "image_path": "path/to/your/image",
    "prompt": "a description of the image"
}
AI 代码解读

5. 开始微调

bash scripts/run_1024_finetune.sh
AI 代码解读

6. 推理代码

我们支持多种求解器,包括中点求解器、欧拉求解器和 DPM 求解器。

  • Gradio Demo

    python demo.py \
      --ckpt /path/to/your/ckpt \
      --res 1024 \
      --port 12123
    
    AI 代码解读
  • 直接批量推理

    bash scripts/sample.sh
    
    AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

目录
打赏
0
18
18
1
382
分享
相关文章
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
Skywork-R1V 2.0是昆仑万维最新开源的多模态推理模型,通过混合强化学习和多模态奖励模型实现复杂推理任务,在理科题目解答和科研分析中展现出色性能。
83 11
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
机器人训练师狂喜!Infinite Mobility:上海AI Lab造物神器1秒生成可动家具,成本只要1分钱
上海AI Lab推出的Infinite Mobility采用程序化生成技术,可高效生成22类高质量可交互物体,单个生成仅需1秒且成本低至0.01元,已应用于机器人仿真训练等领域。
46 2
机器人训练师狂喜!Infinite Mobility:上海AI Lab造物神器1秒生成可动家具,成本只要1分钱
「社会实验室」成真!SocioVerse:复旦联合小红书开源社会模拟世界模型,用AI预演群体行为
SocioVerse是由复旦大学联合小红书等机构开源的社会模拟框架,基于大语言模型和千万级真实用户数据构建,能精准模拟群体行为并预测社会事件演化趋势。
54 2
「社会实验室」成真!SocioVerse:复旦联合小红书开源社会模拟世界模型,用AI预演群体行为
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。
169 1
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
让AI看懂图像每个像素!英伟达推出多模态大模型 DAM-3B:图像视频局部描述精度提升300%
英伟达推出的DAM-3B多模态大语言模型,通过创新的焦点提示技术和局部视觉骨干网络,实现了对图像和视频中特定区域的精准描述生成,为内容创作和智能交互领域带来全新可能。
90 0
让AI看懂图像每个像素!英伟达推出多模态大模型 DAM-3B:图像视频局部描述精度提升300%
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
169 29
破茧成蝶:传统J2EE应用无缝升级AI原生
本文探讨了技术挑战和解决方案,还提供了具体的实施步骤,旨在帮助企业顺利实现从传统应用到智能应用的过渡。
破茧成蝶:传统J2EE应用无缝升级AI原生
AI赋能大学计划·大模型技术与应用实战学生训练营——华东师范大学站圆满结营
4月24日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行大模型应用实战学生训练营——华东师范大学站圆满结营。
33 2
一键部署 Dify + MCP Server,高效开发 AI 智能体应用
本文将着重介绍如何通过 SAE 快速搭建 Dify AI 研发平台,依托 Serverless 架构提供全托管、免运维的解决方案,高效开发 AI 智能体应用。
2511 64

热门文章

最新文章