MIT颠覆传统！分形生成模型效率暴涨4000倍，高分辨率图像秒级生成

2025-03-05 648

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Fractal Generative Models 是麻省理工学院与 Google DeepMind 团队推出的新型图像生成方法，基于分形思想，通过递归调用模块构建自相似架构，显著提升计算效率，适用于高分辨率图像生成、医学图像模拟等领域。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎨 “图像生成新革命！麻省理工分形模型效率提升4000倍，高分辨率图像生成从此不再难！”

大家好，我是蚝油菜花。你是否也遇到过——

👉 生成高分辨率图像时，计算资源消耗巨大，耗时过长？
👉 传统生成模型在处理复杂图像时，细节丢失严重？
👉 医学图像、分子结构等高维数据建模困难重重？

今天要介绍的 Fractal Generative Models，正是为解决这些问题而生！这款由麻省理工学院与 Google DeepMind 团队联合开发的模型，基于分形思想，通过递归调用模块构建自相似架构，显著提升了计算效率，计算效率提升4000倍，让高分辨率图像生成变得轻而易举。无论是医学图像模拟，还是分子结构建模，Fractal Generative Models 都能轻松应对。接下来，我们将深入解析其技术原理与应用场景，带你领略分形生成模型的强大之处！

🚀 快速阅读

Fractal Generative Models 是一种基于分形思想的新型图像生成方法。

核心功能：逐像素生成高分辨率图像，显著提升计算效率，适用于高维非顺序数据建模。
技术原理：通过分形架构和分而治之策略，结合 Transformer 模块，逐步细化生成过程，实现高效图像生成。

Fractal Generative Models 是什么

$fractalgen$

Fractal Generative Models（分形生成模型）是麻省理工学院计算机科学与人工智能实验室和 Google DeepMind 团队联合推出的一种新型图像生成方法。该模型基于分形思想，将生成过程抽象为可复用的“原子模块”，通过递归调用这些模块，构建出自相似的分形架构，从而实现逐像素生成高分辨率图像。

相比传统生成模型，Fractal Generative Models 采用了分而治之的策略，结合 Transformer 模块，从图像块逐步细化到像素级别，最终实现高效生成。其计算效率提升了4000倍，在图像质量和生成速度上表现出色。此外，该模型还具备处理高维非顺序数据的潜力，可应用于分子结构、蛋白质建模等领域。

Fractal Generative Models 的主要功能

逐像素生成高分辨率图像：逐像素生成高质量的高分辨率图像，解决传统生成模型在高分辨率图像生成中的计算瓶颈。
显著提升计算效率：相比传统方法，分形生成模型的计算效率提高4000倍，让逐像素生成高分辨率图像成为可能。
建模高维非顺序数据：不仅可以用于图像生成，还可扩展到其他高维非顺序数据的建模，如分子结构、蛋白质等。
掩码重建与语义预测：准确预测被掩蔽的像素，从类标签中捕获高级语义信息，实现图像编辑和语义控制。
自回归生成能力：模型逐步细化生成过程，从图像块到像素级别逐步优化生成结果。

Fractal Generative Models 的技术原理

分形架构：模型将生成过程抽象为可复用的“原子模块”，基于递归调用模块构建出自相似的分形架构。架构类似于俄罗斯套娃，每一层模块都生成更高分辨率的输出。
分而治之策略：将复杂的高维生成任务分解为多个递归级别，每个级别的生成器从单个输入生成多个输出，实现生成输出的指数级增长。
Transformer 模块：在每个分形级别中，自回归模型接收前一个生成器的输出，与相应的图像块连接，基于多个 Transformer 模块为下一个生成器生成一组输出，逐步细化生成过程。
自回归建模：模型基于自回归方法对图像像素进行逐像素建模，基于学习像素之间的依赖关系，生成高质量的图像。
掩码重建技术：结合掩码自编码器（MAE）的掩码重建能力，模型能预测被掩蔽的像素，进一步提升生成的灵活性和鲁棒性。

如何运行 Fractal Generative Models

1. 准备数据集

下载 ImageNet 数据集，并将其放置在 IMAGENET_PATH 目录下。

2. 安装环境

下载代码并创建 conda 环境：

git clone https://github.com/LTH14/fractalgen.git
cd fractalgen
conda env create -f environment.yaml
conda activate fractalgen

3. 下载预训练模型

运行以下命令下载预训练模型：

python util/download.py

4. 训练模型

以下是训练 FractalAR 模型的示例脚本：

torchrun --nproc_per_node=8 --nnodes=4 --node_rank=${NODE_RANK} --master_addr=${MASTER_ADDR} --master_port=${MASTER_PORT} \
main_fractalgen.py \
--model fractalar_in64 --img_size 64 --num_conds 1 \
--batch_size 64 --eval_freq 40 --save_last_freq 10 \
--epochs 800 --warmup_epochs 40 \
--blr 5.0e-5 --weight_decay 0.05 --attn_dropout 0.1 --proj_dropout 0.1 --lr_schedule cosine \
--gen_bsz 256 --num_images 8000 --num_iter_list 64,16 --cfg 11.0 --cfg_schedule linear --temperature 1.03 \
--output_dir ${OUTPUT_DIR} --resume ${OUTPUT_DIR} \
--data_path ${IMAGENET_PATH} --grad_checkpointing --online_eval

5. 评估模型

以下是评估 FractalAR 模型的示例脚本：

torchrun --nproc_per_node=1 --nnodes=1 --node_rank=0 \
main_fractalgen.py \
--model fractalar_in64 --img_size 64 --num_conds 1 \
--nll_bsz 128 --nll_forward_number 1 \
--output_dir pretrained_models/fractalar_in64 \
--resume pretrained_models/fractalar_in64 \
--data_path ${IMAGENET_PATH} --seed 0 --evaluate_nll

资源

GitHub 仓库：https://github.com/LTH14/fractalgen