Stable Diffusion 3是Stability AI发布的最新文本到图像生成模型,它在多个方面超越了现有的文本到图像生成系统,包括DALL·E 3、Midjourney v6和Ideogram v1等。该模型的核心技术包括改进版的Diffusion模型和一个基于DiT(Diffusion Transformer)的全新架构。Stable Diffusion 3在视觉美感、文本遵循和排版等方面表现出色,能够生成高质量、与文本提示高度一致的图像。
Stable Diffusion 3采用了多模态扩散Transformer(MMDiT)架构,该架构使用独立的权重集合来处理图像和语言表示,显著提升了对文本的理解和文字的拼写能力。MMDiT架构在DiT的基础上建立,为文本和图像模态分别设置了独立的权重,使得模型能够在各自的空间内独立工作,同时考虑到彼此之间的关联关系,实现更好的信息传递和整合。
在性能评估方面,Stable Diffusion 3在人类反馈的基础上,与其他开源模型和闭源模型进行了详细的对比评估。评估员根据与给定提示的一致性、文本的清晰度以及图像的整体美观度选择了每个模型的最佳输出。测试结果显示,Stable Diffusion 3在遵循提示的准确性、文本的清晰呈现和图像的视觉美感方面都达到或超过了当前文生图生成技术的最高水平。
Stable Diffusion 3还采用了Rectified Flow(RF)策略,将训练数据和噪声沿着直线轨迹连接起来,使得推理路径更加直接,从而减少了采样步骤。此外,作者在训练流程中引入了一种创新的轨迹采样计划,特别增加了对轨迹中间部分的权重,这些部分的预测任务更具挑战性。
在模型性能方面,Stable Diffusion 3提供了多个版本,参数范围从8亿到80亿,以降低使用的硬件门槛。最大的8B参数模型在RTX 4090消费级GPU上运行,使用50个采样步骤生成1024x1024分辨率的图像需耗时34秒。此外,通过移除用于推理的内存密集型T5文本编码器,SD3的内存需求可显著降低,而性能损失微乎其微。
Stable Diffusion 3的发布,不仅提高了生成图像的质量和准确性,还为未来的创意产业、个性化内容生成、辅助创作工具以及增强现实和虚拟现实应用等领域带来了新的可能性。随着这项技术的进一步发展和普及,我们可以期待看到更多创新的应用场景和解决方案。