Stable Diffusion 3技术报告新鲜出炉：结合DiT，碾压DALL·E 3等模型-阿里云开发者社区

Stable Diffusion 3技术报告新鲜出炉：结合DiT，碾压DALL·E 3等模型

2024-03-07 344

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【2月更文挑战第16天】Stable Diffusion 3技术报告新鲜出炉：结合DiT，碾压DALL·E 3等模型

Stable Diffusion 3是Stability AI发布的最新文本到图像生成模型，它在多个方面超越了现有的文本到图像生成系统，包括DALL·E 3、Midjourney v6和Ideogram v1等。该模型的核心技术包括改进版的Diffusion模型和一个基于DiT（Diffusion Transformer）的全新架构。Stable Diffusion 3在视觉美感、文本遵循和排版等方面表现出色，能够生成高质量、与文本提示高度一致的图像。

Stable Diffusion 3采用了多模态扩散Transformer（MMDiT）架构，该架构使用独立的权重集合来处理图像和语言表示，显著提升了对文本的理解和文字的拼写能力。MMDiT架构在DiT的基础上建立，为文本和图像模态分别设置了独立的权重，使得模型能够在各自的空间内独立工作，同时考虑到彼此之间的关联关系，实现更好的信息传递和整合。

在性能评估方面，Stable Diffusion 3在人类反馈的基础上，与其他开源模型和闭源模型进行了详细的对比评估。评估员根据与给定提示的一致性、文本的清晰度以及图像的整体美观度选择了每个模型的最佳输出。测试结果显示，Stable Diffusion 3在遵循提示的准确性、文本的清晰呈现和图像的视觉美感方面都达到或超过了当前文生图生成技术的最高水平。

Stable Diffusion 3还采用了Rectified Flow（RF）策略，将训练数据和噪声沿着直线轨迹连接起来，使得推理路径更加直接，从而减少了采样步骤。此外，作者在训练流程中引入了一种创新的轨迹采样计划，特别增加了对轨迹中间部分的权重，这些部分的预测任务更具挑战性。

在模型性能方面，Stable Diffusion 3提供了多个版本，参数范围从8亿到80亿，以降低使用的硬件门槛。最大的8B参数模型在RTX 4090消费级GPU上运行，使用50个采样步骤生成1024x1024分辨率的图像需耗时34秒。此外，通过移除用于推理的内存密集型T5文本编码器，SD3的内存需求可显著降低，而性能损失微乎其微。

Stable Diffusion 3的发布，不仅提高了生成图像的质量和准确性，还为未来的创意产业、个性化内容生成、辅助创作工具以及增强现实和虚拟现实应用等领域带来了新的可能性。随着这项技术的进一步发展和普及，我们可以期待看到更多创新的应用场景和解决方案。

Stable Diffusion 3技术报告新鲜出炉：结合DiT，碾压DALL·E 3等模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Stable Diffusion 3技术报告新鲜出炉：结合DiT，碾压DALL·E 3等模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景