Meissonic:高效高分辨率文生图重大革新

简介: Meissonic的新模型,仅1b参数可实现高质量图像生成,能在普通电脑上运行,未来有望支持无线端文本到图像的生成。

01前言

由阿里巴巴集团、Skywork AI和香港科技大学及其广州校区、浙江大学、加州大学伯克利分校联合的研究团队提出了一种名为Meissonic的新模型,仅1b参数可实现高质量图像生成,能在普通电脑上运行,未来有望支持无线端文本到图像的生成。

Meissonic旨在通过融合先进的技术和方法来提升非自回归图像生成器(MIM)在文本到图像(T2I)合成任务中的性能和效率。Meissonic主要通过引入改进的Transformer架构、高级位置编码策略以及动态采样条件,实现了对MIM技术的重大革新。

此外,该模型还利用高质量训练数据、微调条件和特征压缩层进一步提升了图像生成的质量和分辨率。实验结果表明,Meissonic不仅在高分辨率图像生成方面与当前最先进的扩散模型相媲美,而且其参数量远小于这些大型模型,能够在不牺牲性能的前提下运行在消费级GPU上,无需额外优化。总体而言,Meissonic代表了向高效、高质量文本到图像合成迈出了重要一步,同时为未来的相关研究提供了新的方向和技术参考。

近期,Collov-Labs开发的Monetico 是 Meissonic 的高效复制版。在 8 个 H100 GPU 上训练约一周后,Monetico 可以生成高质量的 512x512 图像,与 Meissonic 和 SDXL 生成的图像相当。今天也登录Huggingface趋势榜榜首。

模型链接:

https://modelscope.cn/models/AI-ModelScope/Monetico

在线Demo链接:

https://modelscope.cn/studios/AI-ModelScope/Monetico

关键要点

  1. 下一代高效文生图模型:Meissonic是一种基于masked discrete image token modeling的下一代文生图模型,非常高效。
  2. 改进的Transformer架构:通过结合多模态和单模态Transformers层,可以显著提高MIM训练效率和性能。
  3. 高级位置编码:使用RoPE进行编码位置信息,并使用动态采样条件来实现更好的图像细节和质量。
  4. 高质量训练数据:高质量的训练数据、微调条件和特征压缩层有助于提高生成能力。
  5. 高效生成,支持消费级显卡:Meissonic能够在消费者级GPU上运行,且不需要任何额外的优化。

02模型架构

Meissonic模型架构旨在通过集成框架促进高效高性能的文本到图像合成,该集成框架包括CLIP文本编码器,vector-quanlized(VQ)图像编码器和解码器,以及多模态Transformer backbone。下图显示了模型的整体结构。

vector-quanlized图像编码器和解码器。

研究团队使用一个VQ-VAE模型将原始图像像素转换为离散的语义令牌。该模型包括一个编码器、一个解码器以及一个映射输入图像到由学习代码书生成的序列的离散令牌的量化层。对于大小为H×W的图像,编码的令牌尺寸是Hf×Wf,其中f表示下采样比。实现中,利用了f = 16的下采样比和8192个代码书大小,允许1024×1024图像被编码成64×64个离散令牌的序列。

灵活高效的文本编码器。

与之前广泛使用的大型语言模型编码器(例如T5-XXL1)不同,使用的是CLIP模型的最先进的单个文本编码器,其潜在维度为1024,然后对其进行微调以获得最佳的T2I性能。虽然这一决策可能会限制模型对较长文本提示的理解能力,但我们的观察表明,排除像T5这样的大规模文本编码器并不会降低视觉质量。此外,这种方法显著降低了GPU内存需求和计算成本。值得注意的是,在线提取T5特征需要大约11倍的处理时间和6倍的存储空间,这凸显了设计的高效性。

多模态Transformer backbone用于Masked Image Modeling。

Transformer架构建立在多模态Transformer框架之上,该框架包括采样参数r以编码采样参数和旋转位置嵌入(RoPE),用于空间信息编码。引入特征压缩层来高效处理高分辨率生成的大量离散令牌。这些层将嵌入特征从64×64压缩到32×32,然后通过变压器进行处理,并由后继的特征解压缩层恢复为64×64,从而减轻计算负担。为了增强训练稳定性并缓解NaN损失问题,在分布式训练期间遵循LLaMa的训练策略,在训练过程中实施梯度裁剪和检查点重新加载,并集成QK-Norm层进入架构。


多样化的微环境条件。

为了增强生成性能,引入了额外的条件,例如原始图像分辨率、裁剪坐标和人类偏好分数。这些条件被转换为正弦嵌入,并与最终文本编码器池化隐藏状态的附加通道进行拼接。

Masking策略。采用一个随余弦调度变化的可变掩蔽比率。具体来说,从以下密度函数所描述的截断反正切分布中随机采样一个掩蔽比率r∈ [0, 1],密度函数如下:

相比自回归模型为固定的标记顺序学习条件分布 ,本文的方法通过随机masking和可变比率来让模型学习 ,适用于任意标记子集 。这种灵活性对并行采样策略至关重要,并促进了各种零样本图像编辑能力。

03模型效果体验

04模型效果对比

05魔搭最佳实践

在魔搭社区免费算力运行webui

第一步:

打开免费算力(单卡A10)

第二步:

clone代码并安装依赖

git clone https://www.modelscope.cn/studios/MeissonFlow/meissonic.git
cd meissonic
pip install -r requirements.txt

第三步:

运行app.py

# 魔搭社区运行gradio,需要指定域名处dsw路径
export GRADIO_ROOT_PATH=/dsw-xxx/proxy/7860/
python app.py

体验页面:

显存占用:

06未来展望

和作者沟通,Meissonic int4已经优化完毕,大概4GB显存就够了,狠狠的期待住了。

随着端侧设备的日益强大,离线文生图模型应用程序已经在移动端上线,例如 Google Pixel 9 的 Pixel Studio 和 Apple iPhone 16 的 Image Playground,我们期待Meissonic早日登上移动端设备,提供了高效高分辨率文生图能力的同时,离线运行能够更好的保护用户隐私。

文章链接:

https://arxiv.org/pdf/2410.08261

模型链接:

https://modelscope.cn/models/MeissonFlow/Meissonic

在线Demo链接:

https://modelscope.cn/studios/MeissonFlow/meissonic/

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
打赏
0
1
1
0
156
分享
相关文章
文生图的基石CLIP模型的发展综述
CLIP(Contrastive Language-Image Pre-training)是OpenAI在2021年发布的多模态模型,用于学习文本-图像对的匹配。模型由文本和图像编码器组成,通过对比学习使匹配的输入对在向量空间中靠近,非匹配对远离。预训练后,CLIP被广泛应用于各种任务,如零样本分类和语义搜索。后续研究包括ALIGN、K-LITE、OpenCLIP、MetaCLIP和DFN,它们分别在数据规模、知识增强、性能缩放和数据过滤等方面进行了改进和扩展,促进了多模态AI的发展。
1639 0
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型,支持几何生成和纹理合成。
243 5
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
"揭秘SD文生图的神秘面纱:从选择模型到生成图像,一键解锁你的创意图像世界,你敢来挑战吗?"
【10月更文挑战第14天】Stable Diffusion(SD)文生图功能让用户通过文字描述生成复杂图像。过程包括:选择合适的SD模型(如二次元、2.5D、写实等),编写精准的提示词(正向和反向提示词),设置参数(迭代步数、采样方法、分辨率等),并调用API生成图像。示例代码展示了如何使用Python实现这一过程。
363 4
NeurIPS 2024:水印与高效推理如何两全其美?最新理论:这做不到
在人工智能领域,大型语言模型(LLMs)广泛应用,但面临推理效率和知识产权保护两大挑战。研究人员提出数字水印和推测采样技术应对这些挑战,然而最新研究发现两者可能存在冲突。该研究提出了“双重新加权框架”,旨在集成无偏水印和推测采样,确保输出分布不变。研究贡献包括:1) 不可能定理揭示了水印强度与采样效率之间的固有权衡;2) 提出两种实用算法以实现二者间的权衡。论文地址:https://arxiv.org/pdf/2410.20418。
47 6
NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频
NVILA是英伟达推出的视觉语言大模型,旨在高效处理高分辨率图像和长视频,同时保持高准确性。该模型通过“扩展-压缩”策略和多种优化技术,在多个领域如机器人导航和医疗成像中展现出广泛的应用潜力。
174 13
NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频
基于函数计算体验AIGC文生图应用
小陈在学习Serverless和函数计算后,计划通过阿里云函数计算服务实践AIGC应用。他发现阿里云提供了基于Stable Diffusion的文生图模型模板,可以快速创建AIGC应用。部署步骤包括开通函数计算服务,通过模板创建应用并部署,然后通过应用域名进行文字生图体验。用户还能查看和管理函数,进行版本和别名管理。实验完成后,应用可以被安全删除。
452 2
一键打造你的定制化AIGC文生图工具
【8月更文挑战第2天】一键打造你的定制化AIGC文生图工具
276 0
Sora视频重建与创新路线问题之Muse模型想生成高分辨率图像,要如何操作
Sora视频重建与创新路线问题之Muse模型想生成高分辨率图像,要如何操作
微软开源创新LoRA组合方法,增强文生图复杂细节控制
微软研究团队推出Multi-LoRA Composition技术,改善文本到图像模型的细节控制。利用低秩适应(LoRA)提升图像生成精度,通过LORA SWITCH和LORA COMPOSITE解决组合复杂图像的挑战。新方法在ComposLoRA平台上测试,性能优于基线,为图像生成和个性化内容创作开辟新途径。尽管有学习曲线和定制需求优化的问题,但该研究仍为领域带来显著进步。
522 3
微软开源创新LoRA组合方法,增强文生图复杂细节控制
|
12月前
英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
【2月更文挑战第3天】英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
241 1
英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等