Stable Diffusion 3技术报告新鲜出炉:结合DiT,碾压DALL·E 3等模型

简介: 【2月更文挑战第16天】Stable Diffusion 3技术报告新鲜出炉:结合DiT,碾压DALL·E 3等模型

d27c77e6c90124d8de7268bb9aa731be.jpeg
Stable Diffusion 3是Stability AI发布的最新文本到图像生成模型,它在多个方面超越了现有的文本到图像生成系统,包括DALL·E 3、Midjourney v6和Ideogram v1等。该模型的核心技术包括改进版的Diffusion模型和一个基于DiT(Diffusion Transformer)的全新架构。Stable Diffusion 3在视觉美感、文本遵循和排版等方面表现出色,能够生成高质量、与文本提示高度一致的图像。

Stable Diffusion 3采用了多模态扩散Transformer(MMDiT)架构,该架构使用独立的权重集合来处理图像和语言表示,显著提升了对文本的理解和文字的拼写能力。MMDiT架构在DiT的基础上建立,为文本和图像模态分别设置了独立的权重,使得模型能够在各自的空间内独立工作,同时考虑到彼此之间的关联关系,实现更好的信息传递和整合。

在性能评估方面,Stable Diffusion 3在人类反馈的基础上,与其他开源模型和闭源模型进行了详细的对比评估。评估员根据与给定提示的一致性、文本的清晰度以及图像的整体美观度选择了每个模型的最佳输出。测试结果显示,Stable Diffusion 3在遵循提示的准确性、文本的清晰呈现和图像的视觉美感方面都达到或超过了当前文生图生成技术的最高水平。

Stable Diffusion 3还采用了Rectified Flow(RF)策略,将训练数据和噪声沿着直线轨迹连接起来,使得推理路径更加直接,从而减少了采样步骤。此外,作者在训练流程中引入了一种创新的轨迹采样计划,特别增加了对轨迹中间部分的权重,这些部分的预测任务更具挑战性。

在模型性能方面,Stable Diffusion 3提供了多个版本,参数范围从8亿到80亿,以降低使用的硬件门槛。最大的8B参数模型在RTX 4090消费级GPU上运行,使用50个采样步骤生成1024x1024分辨率的图像需耗时34秒。此外,通过移除用于推理的内存密集型T5文本编码器,SD3的内存需求可显著降低,而性能损失微乎其微。

Stable Diffusion 3的发布,不仅提高了生成图像的质量和准确性,还为未来的创意产业、个性化内容生成、辅助创作工具以及增强现实和虚拟现实应用等领域带来了新的可能性。随着这项技术的进一步发展和普及,我们可以期待看到更多创新的应用场景和解决方案。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
AI 绘画Stable Diffusion 研究(七) 一文读懂 Stable Diffusion 工作原理(2)
AI 绘画Stable Diffusion 研究(七) 一文读懂 Stable Diffusion 工作原理
486 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
Stable Diffusion 3深夜横空出世!模型与Sora同架构
【2月更文挑战第4天】Stable Diffusion 3深夜横空出世!模型与Sora同架构
107 4
Stable Diffusion 3深夜横空出世!模型与Sora同架构
|
机器学习/深度学习 人工智能 自然语言处理
AI 绘画Stable Diffusion 研究(七) 一文读懂 Stable Diffusion 工作原理(1)
AI 绘画Stable Diffusion 研究(七) 一文读懂 Stable Diffusion 工作原理
342 0
|
机器学习/深度学习 人工智能 安全
AI 绘画Stable Diffusion 研究(三)sd模型种类介绍及安装使用详解(1)
AI 绘画Stable Diffusion 研究(三)sd模型种类介绍及安装使用详解
1550 0
|
人工智能 物联网
AI 绘画Stable Diffusion 研究(十一)sd图生图功能详解-美女换装
AI 绘画Stable Diffusion 研究(十一)sd图生图功能详解-美女换装
1079 1
|
机器学习/深度学习 存储 人工智能
AI 绘画Stable Diffusion 研究(十五)SD Embedding详解
AI 绘画Stable Diffusion 研究(十五)SD Embedding详解
1198 1
|
机器学习/深度学习 人工智能 算法
AI 绘画Stable Diffusion 研究(十六)SD Hypernetwork详解
AI 绘画Stable Diffusion 研究(十六)SD Hypernetwork详解
338 0
|
人工智能 编解码 物联网
AI 绘画Stable Diffusion 研究(三)sd模型种类介绍及安装使用详解(3)
AI 绘画Stable Diffusion 研究(三)sd模型种类介绍及安装使用详解
864 0
|
人工智能 物联网
AI 绘画Stable Diffusion 研究(三)sd模型种类介绍及安装使用详解(2)
AI 绘画Stable Diffusion 研究(三)sd模型种类介绍及安装使用详解
604 0
|
人工智能
AI 绘画Stable Diffusion 研究(十四)SD 图生图+剪映制作人物说话视频(2)
AI 绘画Stable Diffusion 研究(十四)SD 图生图+剪映制作人物说话视频
620 0