消费级GPU可用，文本转图像开源新模型Stable Diffusion生成宇宙变迁大片-阿里云开发者社区

消费级GPU可用，文本转图像开源新模型Stable Diffusion生成宇宙变迁大片

2023-05-17 155

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 消费级GPU可用，文本转图像开源新模型Stable Diffusion生成宇宙变迁大片

Stable Diffusion 模型无需预处理和后处理，几秒钟内就能创造出令人惊叹的艺术图像。

根据文本生成图像是近来大火的一个研究方向。无论是英伟达的 GauGAN，还是 OpenAI 的 DALL·E，都获得了令人印象深刻的结果。但这些模型都是参数量过亿的超大模型，普通的消费级 GPU 根本无法支持。

现在，来自慕尼黑大学和 Runway 的研究者基于其 CVPR 2022 的论文《High-Resolution Image Synthesis with Latent Diffusion Models》，并与 Eleuther AI、LAION 等团队合作，共同开发了一种可在消费级 GPU 上运行的文本转图像模型 Stable Diffusion，目前项目代码已开源。

代码地址：https://github.com/CompVis/stable-diffusion

Stable Diffusion 模型是首个在 4000 个 A100 Ezra-1 AI 超大集群上进行训练的文本转图像模型。在测试方面，研究团队已经和 10000 多名 beta 测试用户一起大规模测试该模型，每天可创建 170 万张图像。该研究后续还将发布该模型输出的开放合成数据集。
Stable Diffusion 可以在消费级 GPU 上的 10 GB VRAM 下运行，并在几秒钟内生成 512x512 像素的图像，无需预处理和后处理，这是速度和质量上的突破。

有网友使用 Stable Diffusion 模型的 beta 试用版模拟了世界的发展过程，效果非常震撼。

包括宇宙的演变：

生物的进化：

人类文明的发展：

论文方法

论文地址：https://arxiv.org/pdf/2112.10752.pdf

该研究试图利用扩散模型实现文字转图像。尽管扩散模型允许通过对相应的损失项进行欠采样（undersampling）来忽略感知上不相关的细节，但它们仍然需要在像素空间中进行昂贵的函数评估，这会导致对计算时间和能源资源的巨大需求。该研究通过将压缩与生成学习阶段显式分离来规避这个问题，最终降低了训练扩散模型对高分辨率图像合成的计算需求。