比Stable Diffusion便宜118倍！1890美元训出11.6亿参数高质量文生图模型-阿里云开发者社区

比Stable Diffusion便宜118倍！1890美元训出11.6亿参数高质量文生图模型

2024-09-06 76 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第6天】最近，一篇论文在AI领域引起广泛关注，展示了如何以极低成本训练高质量文本生成图像（T2I）模型。研究者通过随机遮蔽图像中75%的patch并采用延迟遮蔽策略，大幅降低计算成本，同时结合Mixture-of-Experts（MoE）层提升性能。最终，他们仅用1890美元就训练出了一个拥有11.6亿参数的模型，在COCO数据集上取得12.7的FID分数。这一成果比Stable Diffusion成本低118倍，为资源有限的研究人员提供了新途径。尽管如此，该方法在其他数据集上的表现及进一步降低成本的可行性仍需验证。

最近，一篇论文在AI领域引起了广泛关注，该论文展示了如何在极低成本下训练出高质量的文生图（T2I）扩散模型。论文的重点是解决生成式AI模型在性能扩展过程中的资源集中问题，特别是对于那些拥有大量计算资源的参与者。

论文中，研究人员提出了一种创新的方法，可以在极低的预算下训练大规模的T2I扩散模型。他们通过在训练过程中随机遮蔽图像中高达75%的patch，从而显著降低了计算成本。具体而言，他们提出了一种延迟遮蔽策略，在遮蔽之前使用patch-mixer对所有patch进行预处理，这大大减少了遮蔽对性能的负面影响，使其在降低计算成本方面比模型缩放更为有效。

此外，研究人员还结合了最新的Transformer架构改进，如使用Mixture-of-Experts（MoE）层，以进一步提高性能。他们还强调了在微预算训练中使用合成图像的重要作用。

通过使用仅3700万张公开可用的真实和合成图像，研究人员训练了一个拥有11.6亿参数的稀疏Transformer，总经济成本仅为1890美元。令人印象深刻的是，他们的模型在COCO数据集上的零样本生成中取得了12.7的FID分数，这表明其生成的质量非常高。

与Stable Diffusion等其他模型相比，该模型的成本要低得多。事实上，它的成本比Stable Diffusion低了118倍，比目前最先进的方法低了14倍，后者的成本为28400美元。

这一成果对于那些资源有限的研究人员和开发者来说是一个重大突破，因为它提供了一种更经济高效的方式来训练高质量的生成式AI模型。论文的作者还计划发布他们的端到端训练管道，以进一步推动微预算下大型扩散模型的训练普及化。

然而，尽管这一成果具有巨大的潜力，但也存在一些潜在的挑战和限制。首先，尽管该模型在COCO数据集上取得了良好的结果，但在其他数据集或任务上的表现如何还有待验证。其次，虽然该方法在降低计算成本方面非常有效，但对于某些应用或数据集来说，性能的降低可能是不可接受的。

此外，尽管该模型的成本相对较低，但对于一些研究人员或开发者来说，1890美元仍然是一个不小的开支。因此，在实际应用中，可能需要进一步探索更低成本的训练方法或资源优化策略。

论文地址：https://arxiv.org/abs/2407.15811

比Stable Diffusion便宜118倍！1890美元训出11.6亿参数高质量文生图模型

热门文章

最新文章

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

比Stable Diffusion便宜118倍！1890美元训出11.6亿参数高质量文生图模型

热门文章

最新文章

相关电子书

相关实验场景