Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像

简介: Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 Lumina-Image 2.0 这个由上海 AI Lab 开源的高效统一图像生成模型。

🚀 快速阅读

Lumina-Image 2.0 是一个开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构。

  1. 核心功能:支持高质量图像生成、多语言提示词、复杂提示词理解和多种推理求解器。
  2. 技术原理:采用扩散模型和Transformer架构,结合中点求解器、欧拉求解器和DPM求解器,优化训练与推理流程。

Lumina-Image 2.0 是什么

Lumina-Image 2.0

Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构。该模型在图像生成质量、复杂提示理解和资源效率方面表现出色,能够根据文本描述生成高质量、多风格的图像。模型支持多种推理求解器,如中点求解器、欧拉求解器和DPM求解器,生成速度较快。

Lumina-Image 2.0 在文本对齐能力上达到了行业领先水平,能够生成逼真的写真、艺术字、风格化图像等,并且支持中英双语提示词,可以根据不同语言的描述生成对应的图像。此外,模型还已实现对ComfyUI的原生支持,用户可以通过ComfyUI直接使用该模型。

Lumina-Image 2.0 的主要功能

  • 高质量图像生成:能生成高质量的写真、艺术字、风格化图像、逻辑推理图像等。
  • 多语言支持:支持中英双语提示词,可根据不同语言的描述生成对应的图像。
  • 复杂提示词理解:对动物、人物表情等复杂提示词的理解和展示能力较强,能更准确地根据文本描述生成图像。
  • 多种推理求解器支持:支持中点求解器、欧拉求解器和DPM求解器等多种推理求解器。
  • 艺术性和风格表现:在艺术性和风格表现上表现出色,能生成多种风格的图像。
  • 与ComfyUI集成:已实现对ComfyUI的原生支持,用户可以通过ComfyUI直接使用该模型。

Lumina-Image 2.0 的技术原理

  • 扩散模型:Lumina-Image 2.0 使用了基于流的扩散模型(Flow-based Diffusion Model),通过逐步去除噪声来生成图像。具体来说,先将图像数据添加高斯噪声,然后通过训练一个神经网络来逐步去除这些噪声,最终恢复出清晰的图像。
  • Transformer 架构:Lumina-Image 2.0 的核心架构是 Transformer,能处理长距离依赖关系,对文本提示的理解能力更强。使用了 Gemma-2-2B 作为文本编码器,能高效地将文本提示转化为图像生成所需的特征。模型采用 FLUX-VAE-16CH 作为 VAE(变分自编码器),用于高效地编码和解码图像。
  • 多种求解器支持:为了提高生成效率和质量,Lumina-Image 2.0 支持多种推理求解器,包括中点求解器(Midpoint Solver)、欧拉求解器(Euler Solver)和 DPM 求解器。可以根据不同的生成需求和资源限制进行选择,在速度和质量之间取得平衡。
  • 高效的训练与推理:Lumina-Image 2.0 的参数量为 26 亿,相对较小的参数量在资源效率方面表现出色。模型通过优化训练流程和推理方法,能在保持高质量生成的同时,降低计算资源的消耗。

如何运行 Lumina-Image 2.0

1. 创建 Conda 环境并安装 PyTorch

conda create -n Lumina2 -y
conda activate Lumina2
conda install python=3.11 pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia -y

2. 安装依赖项

pip install -r requirements.txt

3. 安装 flash-attn

pip install flash-attn --no-build-isolation

4. 准备数据

你可以将数据文件的链接放在 ./configs/data.yaml 中。图像-文本对训练数据格式应遵循以下格式:

{
   
    "image_path": "path/to/your/image",
    "prompt": "a description of the image"
}

5. 开始微调

bash scripts/run_1024_finetune.sh

6. 推理代码

我们支持多种求解器,包括中点求解器、欧拉求解器和 DPM 求解器。

  • Gradio Demo

    python demo.py \
      --ckpt /path/to/your/ckpt \
      --res 1024 \
      --port 12123
    
  • 直接批量推理

    bash scripts/sample.sh
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
5月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
2173 120
|
5月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
679 120
|
双11 人工智能
双11 AI LAB“全息直播2+2
#看直播,享特惠# 喜迎双十一,阿里云AI LAB特别推出“全息直播2+2”活动: 不仅有最新鲜的人工智能界黑科技, 还有产品及解决方案特惠等你来拿! 全息无限,智享未来!
2551 0
双11 AI LAB“全息直播2+2
|
5月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1308 53
|
6月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1248 59
|
5月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
643 30
|
5月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
640 2
|
5月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
5月前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
398 3

热门文章

最新文章