Meissonic:高效高分辨率文生图重大革新

简介: Meissonic的新模型,仅1b参数可实现高质量图像生成,能在普通电脑上运行,未来有望支持无线端文本到图像的生成。

01前言

由阿里巴巴集团、Skywork AI和香港科技大学及其广州校区、浙江大学、加州大学伯克利分校联合的研究团队提出了一种名为Meissonic的新模型,仅1b参数可实现高质量图像生成,能在普通电脑上运行,未来有望支持无线端文本到图像的生成。

Meissonic旨在通过融合先进的技术和方法来提升非自回归图像生成器(MIM)在文本到图像(T2I)合成任务中的性能和效率。Meissonic主要通过引入改进的Transformer架构、高级位置编码策略以及动态采样条件,实现了对MIM技术的重大革新。

此外,该模型还利用高质量训练数据、微调条件和特征压缩层进一步提升了图像生成的质量和分辨率。实验结果表明,Meissonic不仅在高分辨率图像生成方面与当前最先进的扩散模型相媲美,而且其参数量远小于这些大型模型,能够在不牺牲性能的前提下运行在消费级GPU上,无需额外优化。总体而言,Meissonic代表了向高效、高质量文本到图像合成迈出了重要一步,同时为未来的相关研究提供了新的方向和技术参考。

近期,Collov-Labs开发的Monetico 是 Meissonic 的高效复制版。在 8 个 H100 GPU 上训练约一周后,Monetico 可以生成高质量的 512x512 图像,与 Meissonic 和 SDXL 生成的图像相当。今天也登录Huggingface趋势榜榜首。

模型链接:

https://modelscope.cn/models/AI-ModelScope/Monetico

在线Demo链接:

https://modelscope.cn/studios/AI-ModelScope/Monetico

关键要点

  1. 下一代高效文生图模型:Meissonic是一种基于masked discrete image token modeling的下一代文生图模型,非常高效。
  2. 改进的Transformer架构:通过结合多模态和单模态Transformers层,可以显著提高MIM训练效率和性能。
  3. 高级位置编码:使用RoPE进行编码位置信息,并使用动态采样条件来实现更好的图像细节和质量。
  4. 高质量训练数据:高质量的训练数据、微调条件和特征压缩层有助于提高生成能力。
  5. 高效生成,支持消费级显卡:Meissonic能够在消费者级GPU上运行,且不需要任何额外的优化。

02模型架构

Meissonic模型架构旨在通过集成框架促进高效高性能的文本到图像合成,该集成框架包括CLIP文本编码器,vector-quanlized(VQ)图像编码器和解码器,以及多模态Transformer backbone。下图显示了模型的整体结构。

vector-quanlized图像编码器和解码器。

研究团队使用一个VQ-VAE模型将原始图像像素转换为离散的语义令牌。该模型包括一个编码器、一个解码器以及一个映射输入图像到由学习代码书生成的序列的离散令牌的量化层。对于大小为H×W的图像,编码的令牌尺寸是Hf×Wf,其中f表示下采样比。实现中,利用了f = 16的下采样比和8192个代码书大小,允许1024×1024图像被编码成64×64个离散令牌的序列。

灵活高效的文本编码器。

与之前广泛使用的大型语言模型编码器(例如T5-XXL1)不同,使用的是CLIP模型的最先进的单个文本编码器,其潜在维度为1024,然后对其进行微调以获得最佳的T2I性能。虽然这一决策可能会限制模型对较长文本提示的理解能力,但我们的观察表明,排除像T5这样的大规模文本编码器并不会降低视觉质量。此外,这种方法显著降低了GPU内存需求和计算成本。值得注意的是,在线提取T5特征需要大约11倍的处理时间和6倍的存储空间,这凸显了设计的高效性。

多模态Transformer backbone用于Masked Image Modeling。

Transformer架构建立在多模态Transformer框架之上,该框架包括采样参数r以编码采样参数和旋转位置嵌入(RoPE),用于空间信息编码。引入特征压缩层来高效处理高分辨率生成的大量离散令牌。这些层将嵌入特征从64×64压缩到32×32,然后通过变压器进行处理,并由后继的特征解压缩层恢复为64×64,从而减轻计算负担。为了增强训练稳定性并缓解NaN损失问题,在分布式训练期间遵循LLaMa的训练策略,在训练过程中实施梯度裁剪和检查点重新加载,并集成QK-Norm层进入架构。


多样化的微环境条件。

为了增强生成性能,引入了额外的条件,例如原始图像分辨率、裁剪坐标和人类偏好分数。这些条件被转换为正弦嵌入,并与最终文本编码器池化隐藏状态的附加通道进行拼接。

Masking策略。采用一个随余弦调度变化的可变掩蔽比率。具体来说,从以下密度函数所描述的截断反正切分布中随机采样一个掩蔽比率r∈ [0, 1],密度函数如下:

相比自回归模型为固定的标记顺序学习条件分布 ,本文的方法通过随机masking和可变比率来让模型学习 ,适用于任意标记子集 。这种灵活性对并行采样策略至关重要,并促进了各种零样本图像编辑能力。

03模型效果体验

04模型效果对比

05魔搭最佳实践

在魔搭社区免费算力运行webui

第一步:

打开免费算力(单卡A10)

第二步:

clone代码并安装依赖

git clone https://www.modelscope.cn/studios/MeissonFlow/meissonic.git
cd meissonic
pip install -r requirements.txt

第三步:

运行app.py

# 魔搭社区运行gradio,需要指定域名处dsw路径
export GRADIO_ROOT_PATH=/dsw-xxx/proxy/7860/
python app.py

体验页面:

显存占用:

06未来展望

和作者沟通,Meissonic int4已经优化完毕,大概4GB显存就够了,狠狠的期待住了。

随着端侧设备的日益强大,离线文生图模型应用程序已经在移动端上线,例如 Google Pixel 9 的 Pixel Studio 和 Apple iPhone 16 的 Image Playground,我们期待Meissonic早日登上移动端设备,提供了高效高分辨率文生图能力的同时,离线运行能够更好的保护用户隐私。

文章链接:

https://arxiv.org/pdf/2410.08261

模型链接:

https://modelscope.cn/models/MeissonFlow/Meissonic

在线Demo链接:

https://modelscope.cn/studios/MeissonFlow/meissonic/

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
8月前
|
机器学习/深度学习 人工智能 数据管理
文生图的基石CLIP模型的发展综述
CLIP(Contrastive Language-Image Pre-training)是OpenAI在2021年发布的多模态模型,用于学习文本-图像对的匹配。模型由文本和图像编码器组成,通过对比学习使匹配的输入对在向量空间中靠近,非匹配对远离。预训练后,CLIP被广泛应用于各种任务,如零样本分类和语义搜索。后续研究包括ALIGN、K-LITE、OpenCLIP、MetaCLIP和DFN,它们分别在数据规模、知识增强、性能缩放和数据过滤等方面进行了改进和扩展,促进了多模态AI的发展。
998 0
|
3月前
|
编解码 物联网 API
"揭秘SD文生图的神秘面纱:从选择模型到生成图像,一键解锁你的创意图像世界,你敢来挑战吗?"
【10月更文挑战第14天】Stable Diffusion(SD)文生图功能让用户通过文字描述生成复杂图像。过程包括:选择合适的SD模型(如二次元、2.5D、写实等),编写精准的提示词(正向和反向提示词),设置参数(迭代步数、采样方法、分辨率等),并调用API生成图像。示例代码展示了如何使用Python实现这一过程。
143 4
|
30天前
|
人工智能 编解码 机器人
NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频
NVILA是英伟达推出的视觉语言大模型,旨在高效处理高分辨率图像和长视频,同时保持高准确性。该模型通过“扩展-压缩”策略和多种优化技术,在多个领域如机器人导航和医疗成像中展现出广泛的应用潜力。
98 13
NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频
|
8月前
|
机器学习/深度学习 人工智能 监控
基于函数计算体验AIGC文生图应用
小陈在学习Serverless和函数计算后,计划通过阿里云函数计算服务实践AIGC应用。他发现阿里云提供了基于Stable Diffusion的文生图模型模板,可以快速创建AIGC应用。部署步骤包括开通函数计算服务,通过模板创建应用并部署,然后通过应用域名进行文字生图体验。用户还能查看和管理函数,进行版本和别名管理。实验完成后,应用可以被安全删除。
411 2
|
4月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
98 10
|
5月前
|
机器学习/深度学习 人工智能 PyTorch
"揭秘AI绘画魔法:一键生成梦幻图像,稳定扩散模型带你开启视觉奇迹之旅!"
【8月更文挑战第21天】稳定扩散(Stable Diffusion)是基于深度学习的模型,能根据文本生成高质量图像,在AI领域备受瞩目,革新了创意产业。本文介绍稳定扩散模型原理及使用步骤:环境搭建需Python与PyTorch;获取并加载预训练模型;定义文本描述后编码成向量输入模型生成图像。此外,还可调整参数定制图像风格,或使用特定数据集进行微调。掌握这项技术将极大提升创意表现力。
68 0
|
5月前
|
算法 物联网 Serverless
一键打造你的定制化AIGC文生图工具
【8月更文挑战第2天】一键打造你的定制化AIGC文生图工具
172 0
|
5月前
|
数据可视化 数据管理 vr&ar
|
8月前
|
编解码 人工智能
PixArt-Σ:华为最新文生图模型,支持4K高清图像生成
【5月更文挑战第18天】华为发布PixArt-Σ模型,一款基于DiT架构的4K图像生成器,提升图像质量和文本对齐度。模型采用“弱到强训练”,以少量参数生成优质图像。引入高质量数据和高效标记压缩方法,实现超高分辨率图像生成。实验显示,PixArt-Σ在遵循复杂文本提示和图像质量上表现优异,与顶尖T2I模型相当。然而,计算资源需求大及处理复杂场景能力有限仍是待解问题。[链接](https://arxiv.org/pdf/2403.04692.pdf)
148 1
|
8月前
英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
【2月更文挑战第3天】英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
189 1
英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory

热门文章

最新文章