比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

简介: 【9月更文挑战第6天】最近,一篇论文在AI领域引起广泛关注,展示了如何以极低成本训练高质量文本生成图像(T2I)模型。研究者通过随机遮蔽图像中75%的patch并采用延迟遮蔽策略,大幅降低计算成本,同时结合Mixture-of-Experts(MoE)层提升性能。最终,他们仅用1890美元就训练出了一个拥有11.6亿参数的模型,在COCO数据集上取得12.7的FID分数。这一成果比Stable Diffusion成本低118倍,为资源有限的研究人员提供了新途径。尽管如此,该方法在其他数据集上的表现及进一步降低成本的可行性仍需验证。

最近,一篇论文在AI领域引起了广泛关注,该论文展示了如何在极低成本下训练出高质量的文生图(T2I)扩散模型。论文的重点是解决生成式AI模型在性能扩展过程中的资源集中问题,特别是对于那些拥有大量计算资源的参与者。

论文中,研究人员提出了一种创新的方法,可以在极低的预算下训练大规模的T2I扩散模型。他们通过在训练过程中随机遮蔽图像中高达75%的patch,从而显著降低了计算成本。具体而言,他们提出了一种延迟遮蔽策略,在遮蔽之前使用patch-mixer对所有patch进行预处理,这大大减少了遮蔽对性能的负面影响,使其在降低计算成本方面比模型缩放更为有效。

此外,研究人员还结合了最新的Transformer架构改进,如使用Mixture-of-Experts(MoE)层,以进一步提高性能。他们还强调了在微预算训练中使用合成图像的重要作用。

通过使用仅3700万张公开可用的真实和合成图像,研究人员训练了一个拥有11.6亿参数的稀疏Transformer,总经济成本仅为1890美元。令人印象深刻的是,他们的模型在COCO数据集上的零样本生成中取得了12.7的FID分数,这表明其生成的质量非常高。

与Stable Diffusion等其他模型相比,该模型的成本要低得多。事实上,它的成本比Stable Diffusion低了118倍,比目前最先进的方法低了14倍,后者的成本为28400美元。

这一成果对于那些资源有限的研究人员和开发者来说是一个重大突破,因为它提供了一种更经济高效的方式来训练高质量的生成式AI模型。论文的作者还计划发布他们的端到端训练管道,以进一步推动微预算下大型扩散模型的训练普及化。

然而,尽管这一成果具有巨大的潜力,但也存在一些潜在的挑战和限制。首先,尽管该模型在COCO数据集上取得了良好的结果,但在其他数据集或任务上的表现如何还有待验证。其次,虽然该方法在降低计算成本方面非常有效,但对于某些应用或数据集来说,性能的降低可能是不可接受的。

此外,尽管该模型的成本相对较低,但对于一些研究人员或开发者来说,1890美元仍然是一个不小的开支。因此,在实际应用中,可能需要进一步探索更低成本的训练方法或资源优化策略。

论文地址:https://arxiv.org/abs/2407.15811

目录
相关文章
|
2月前
|
编解码 物联网 API
"揭秘SD文生图的神秘面纱:从选择模型到生成图像,一键解锁你的创意图像世界,你敢来挑战吗?"
【10月更文挑战第14天】Stable Diffusion(SD)文生图功能让用户通过文字描述生成复杂图像。过程包括:选择合适的SD模型(如二次元、2.5D、写实等),编写精准的提示词(正向和反向提示词),设置参数(迭代步数、采样方法、分辨率等),并调用API生成图像。示例代码展示了如何使用Python实现这一过程。
122 4
|
4月前
|
人工智能 自然语言处理 API
阿里云百炼上线FLUX文生图模型中文优化版,可免费调用!
阿里云百炼上线FLUX文生图模型中文优化版,可免费调用!
528 6
|
4月前
|
机器学习/深度学习 人工智能 PyTorch
"揭秘AI绘画魔法:一键生成梦幻图像,稳定扩散模型带你开启视觉奇迹之旅!"
【8月更文挑战第21天】稳定扩散(Stable Diffusion)是基于深度学习的模型,能根据文本生成高质量图像,在AI领域备受瞩目,革新了创意产业。本文介绍稳定扩散模型原理及使用步骤:环境搭建需Python与PyTorch;获取并加载预训练模型;定义文本描述后编码成向量输入模型生成图像。此外,还可调整参数定制图像风格,或使用特定数据集进行微调。掌握这项技术将极大提升创意表现力。
65 0
|
4月前
|
机器学习/深度学习 人工智能 编解码
AI文生图模型
8月更文挑战第16天
|
4月前
|
人工智能 编解码 自然语言处理
AI文生图模型DALL·E 3
8月更文挑战第15天
|
4月前
|
机器学习/深度学习 人工智能 编解码
|
5月前
|
人工智能
AI绘画,Stable Diffusion如何使用中文简体包,黑色页面切换参数http://127.0.0.1:7860/?__theme=dark 两个__,中文包下载和安装
AI绘画,Stable Diffusion如何使用中文简体包,黑色页面切换参数http://127.0.0.1:7860/?__theme=dark 两个__,中文包下载和安装
|
5月前
|
人工智能
AI绘画---Stable Diffusion checkpoint 插件无法安装,中文包无法下载怎么办?这里该如何解决,扩展无法出现
AI绘画---Stable Diffusion checkpoint 插件无法安装,中文包无法下载怎么办?这里该如何解决,扩展无法出现
|
7月前
|
编解码 人工智能
PixArt-Σ:华为最新文生图模型,支持4K高清图像生成
【5月更文挑战第18天】华为发布PixArt-Σ模型,一款基于DiT架构的4K图像生成器,提升图像质量和文本对齐度。模型采用“弱到强训练”,以少量参数生成优质图像。引入高质量数据和高效标记压缩方法,实现超高分辨率图像生成。实验显示,PixArt-Σ在遵循复杂文本提示和图像质量上表现优异,与顶尖T2I模型相当。然而,计算资源需求大及处理复杂场景能力有限仍是待解问题。[链接](https://arxiv.org/pdf/2403.04692.pdf)
138 1
|
7月前
|
机器学习/深度学习 自然语言处理
文生图模型-Stable Diffusion | AIGC
所谓的生成式模型就是通过文本或者随机采样的方式来得到一张图或者一段话的模型,比如文生图,顾名思义通过文本描述来生成图像的过程。当前流行的文生图模型,如DALE-2, midjourney以及今天要介绍的Stable Diffusion,这3种都是基于Diffusion扩散模型【1月更文挑战第6天】
885 0