快速生成商业级高清图!SimpleAR:复旦联合字节推出图像生成黑科技,5亿参数秒出高清大图

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: SimpleAR是复旦大学与字节Seed团队联合研发的自回归图像生成模型,仅用5亿参数即可生成1024×1024分辨率的高质量图像,在GenEval等基准测试中表现优异。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎨 「设计师集体失业?复旦开源模型5亿参数秒出商业级高清图」

大家好,我是蚝油菜花。你是否也经历过这些设计噩梦——

  • 👉 通宵改稿第18版,甲方最后说"还是用第一版吧"
  • 👉 想尝试新风格却卡在素材搜索,试到灵感枯竭
  • 👉 用AI生成图像,结果分辨率一放大就糊成马赛克...

今天要拆解的 SimpleAR ,正在颠覆图像生成规则!这个由复旦&字节联手打造的开源神器:

  • 小身材大能量:仅5亿参数生成1024×1024高清图,GenEval得分0.59
  • 三阶段训练法:预训练+SFT+强化学习,文本跟随能力吊打同类
  • 14秒极速出图:兼容vLLM加速技术,商业应用零门槛

已有广告团队用它1天做完季度提案,接下来将揭秘这套「参数少质量高」的黑科技原理!

SimpleAR 是什么

SimpleAR

SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。该模型采用简洁的自回归架构,通过优化训练和推理过程,实现了高质量的图像生成。

SimpleAR 仅用 5 亿参数即可生成 1024×1024 分辨率的图像,在 GenEval 等基准测试中取得了优异成绩。训练采用"预训练 – 有监督微调 – 强化学习"的三阶段方法,显著提升了文本跟随能力和生成效果。SimpleAR 兼容现有加速技术,推理时间可缩短至 14 秒以内。

SimpleAR 的主要功能

  • 高质量文本到图像生成:SimpleAR 是纯自回归的视觉生成框架,仅用 5 亿参数就能生成 1024×1024 分辨率的高质量图像,在 GenEval 等基准测试中取得了 0.59 的优异成绩。
  • 多模态融合生成:将文本和视觉 token 平等对待,集成在一个统一的 Transformer 架构中,支持多模态建模,能更好地进行文本引导的图像生成。

SimpleAR 的技术原理

  • 自回归生成机制:SimpleAR 采用经典的自回归生成方式,通过"下一个 token 预测"的形式逐步生成图像内容。这种机制将图像分解为一系列离散的 token,然后逐个预测这些 token,从而构建出完整的图像。
  • 多模态融合:SimpleAR 将文本编码和视觉生成集成在一个 decoder-only 的 Transformer 架构中。提高了参数的利用效率,更好地支持了文本和视觉模态之间的联合建模,使模型能更自然地理解和生成与文本描述对应的图像。
  • 三阶段训练方法
    • 预训练:通过大规模数据预训练,学习通用的视觉和语言模式。
    • 有监督微调(SFT):在预训练基础上,通过有监督学习进一步提升生成质量和指令跟随能力。
    • 强化学习(GRPO):基于简单的 reward 函数(如 CLIP)进行后训练,优化生成内容的美学性和多模态对齐。
  • 推理加速技术:SimpleAR 通过 vLLM 等技术优化推理过程,显著缩短了图像生成时间。例如,0.5B 参数的模型可以在 14 秒内生成 1024×1024 分辨率的高质量图像。
  • 视觉 tokenizer 的选择:SimpleAR 使用 Cosmos 作为视觉 tokenizer,在低分辨率图像和细节重建上存在局限,仍有改进空间。

如何运行 SimpleAR

安装环境

python3 -m venv env
source env/bin/activate
pip install -e ".[train]"

模型下载

这里提供SFT和RL两种checkpoint:

name GenEval DPG HF权重
SimpleAR-0.5B-SFT 0.53 79.34 simplear-0.5B-sft
SimpleAR-0.5B-RL 0.59 79.66 simplear-0.5B-grpo

下载视觉tokenizer:

cd checkpoints
git lfs install
git clone https://huggingface.co/nvidia/Cosmos-1.0-Tokenizer-DV8x16x16

生成图像示例代码

import os
import torch
from torchvision.utils import save_image
from transformers import AutoTokenizer
from simpar.model.tokenizer.cosmos_tokenizer.networks import TokenizerConfigs
from simpar.model.tokenizer.cosmos_tokenizer.video_lib import CausalVideoTokenizer as CosmosTokenizer
from simpar.model.language_model.simpar_qwen2 import SimpARForCausalLM

device = "cuda:0"
model_name = "Daniel0724/SimpleAR-0.5B-RL"

# define your prompt here:
prompt = "Inside a warm room with a large window showcasing a picturesque winter landscape, three gleaming ruby red necklaces are elegantly laid out on the plush surface of a deep purple velvet jewelry box. The gentle glow from the overhead light accentuates the rich color and intricate design of the necklaces. Just beyond the glass pane, snowflakes can be seen gently falling to coat the ground outside in a blanket of white."

# Load LLM and tokenizer
model = SimpARForCausalLM.from_pretrained(model_name, device_map=device, torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Load Cosmos tokenizer
tokenizer_config = TokenizerConfigs["DV"].value
tokenizer_config.update(dict(spatial_compression=16, temporal_compression=8))
vq_model = CosmosTokenizer(checkpoint_enc=f"./checkpoints/Cosmos-1.0-Tokenizer-DV8x16x16/encoder.jit", checkpoint_dec=f"./checkpoints/Cosmos-1.0-Tokenizer-DV8x16x16/decoder.jit", tokenizer_config=tokenizer_config)
vq_model.eval()
vq_model.requires_grad_(False)
codebook_size = 64000
latent_size = 64

format_prompt = "<|t2i|>" + "A highly realistic image of " + prompt + "<|soi|>"
input_ids = tokenizer(format_prompt, return_tensors="pt").input_ids.to(device)
uncond_prompt = "<|t2i|>" + "An image of aerial view, overexposed, low quality, deformation, a poor composition, bad hands, bad teeth, bad eyes, bad limbs, distortion" + "<|soi|>"
uncond_input_ids = tokenizer(uncond_prompt, return_tensors="pt").input_ids.to(device)

# next token prediction
with torch.inference_mode():
    output_ids = model.generate_visual(
        input_ids,
        negative_prompt_ids=uncond_input_ids,
        cfg_scale=6.0,
        do_sample=True,
        temperature=1.0,
        top_p=1.0,
        top_k=64000,
        max_new_tokens=4096,
        use_cache=True
    )

index_sample = output_ids[:, input_ids.shape[1]: input_ids.shape[1] + 4096].clone()
index_sample = index_sample - len(tokenizer)
index_sample = torch.clamp(index_sample, min=0, max=codebook_size-1)
index_sample = index_sample.reshape(-1, latent_size, latent_size).unsqueeze(1)

# decode with tokenizer
with torch.inference_mode():
    samples = vq_model.decode(index_sample)

samples = samples.squeeze(2)
save_image(samples, os.path.join(f"{prompt[:50]}.png"), normalize=True, value_range=(-1, 1))

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
机器学习/深度学习 人工智能 知识图谱
视觉分词器突破天花板!GigaTok:港大字节联手打造3B参数视觉分词器,突破图像生成瓶颈
GigaTok是香港大学与字节跳动联合研发的3B参数视觉分词器,通过语义正则化技术和创新架构设计,解决了图像重建与生成质量间的矛盾,显著提升自回归模型的表示学习能力。
226 4
视觉分词器突破天花板!GigaTok:港大字节联手打造3B参数视觉分词器,突破图像生成瓶颈
|
7月前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
1459 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
7月前
|
人工智能 Linux iOS开发
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
OpenUtau是一款开源的歌声合成工具,兼容UTAU音源库和重采样器,支持多语言界面及预渲染功能,让音乐创作更加高效便捷。
1825 15
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
|
机器学习/深度学习
基于PaddleGAN精准唇形合成模型实现美女表白视频
基于PaddleGAN精准唇形合成模型实现美女表白视频
1498 0
基于PaddleGAN精准唇形合成模型实现美女表白视频
|
7月前
|
人工智能 编解码 算法
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。
851 1
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
|
7月前
|
人工智能 算法 数据可视化
机器人训练师狂喜!Infinite Mobility:上海AI Lab造物神器1秒生成可动家具,成本只要1分钱
上海AI Lab推出的Infinite Mobility采用程序化生成技术,可高效生成22类高质量可交互物体,单个生成仅需1秒且成本低至0.01元,已应用于机器人仿真训练等领域。
291 2
机器人训练师狂喜!Infinite Mobility:上海AI Lab造物神器1秒生成可动家具,成本只要1分钱
|
3月前
|
机器人 图形学 开发者
腾讯混元最新开源:一张图,秒变游戏大片
有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?
359 3
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
魔搭社区模型速递(4.20-4.26)
魔搭ModelScope本期社区进展:2227个模型,270个数据集,167个创新应用,10篇内容
360 4
|
7月前
|
人工智能 并行计算 Linux
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。
1674 19
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
|
10月前
|
人工智能 物联网 Python
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
VMix 是一款创新的即插即用美学适配器,通过解耦文本提示和交叉注意力混合控制,显著提升图像生成的美学质量,支持多源输入和高质量视频处理。
407 11
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理

热门文章

最新文章

下一篇
oss云网关配置