加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

简介: 【5月更文挑战第9天】字节跳动研究团队推出Hyper-SD框架,实现快速图像生成,仅需1步即可达SOTA水平。该框架采用TSCD技术减少误差,整合ReFL优化加速模型,提高图像质量。在1步推理时,Hyper-SDXL在CLIP和Aes Score上超越SDXL-Lightning。开源LoRA插件促进社区发展,但可能牺牲部分模型通用性,未来仍需关注用户需求多样性。[论文链接](https://arxiv.org/abs/2404.13686)

在人工智能领域,图像生成技术一直是研究的热点。随着深度学习技术的不断进步,生成模型的能力也在不断提升。最近,字节跳动公司的研究团队在这一领域取得了显著的进展,他们提出了一种名为Hyper-SD的新型框架,该框架能够在极少的推理步骤下生成高质量的图像,并且在某些情况下,只需1步即可达到SOTA(State of the Art,即业界最佳水平)的性能。这一研究成果不仅在技术上具有创新性,而且对整个图像生成领域的发展具有重要的推动作用。

Hyper-SD框架的核心创新在于其独特的“轨迹分段一致性蒸馏”(Trajectory Segmented Consistency Distillation,简称TSCD)技术。这项技术通过将整个时间步范围分割成多个小段,并在每个小段内进行一致性蒸馏,从而实现了对原始轨迹的精细保留。这种方法有效地减少了模型拟合过程中的累积误差,提高了生成图像的质量。

此外,Hyper-SD框架还整合了人类反馈学习(Human Feedback Learning,简称ReFL)技术,通过优化加速模型的ODE(常微分方程)轨迹,使其更适合少步骤推理。这一技术的运用,使得在某些情况下,加速模型的性能甚至超过了原始模型。

在实验中,Hyper-SD在1到8步推理的情况下,对于SDXL和SD1.5两种架构均展现出了SOTA性能。特别是在1步推理的情况下,Hyper-SDXL在CLIP Score和Aes Score两个指标上分别超过了SDXL-Lightning 0.68和0.51,这一结果在图像生成领域是相当惊人的。

为了更全面地评估模型性能,研究团队还进行了广泛的用户研究。用户研究的结果表明,Hyper-SD在多种设置和方法中获得了显著更多的用户偏好,尤其是在与同一架构的基线模型相比时,Hyper-SD15在用户偏好上拥有超过三分之二的优势。

字节跳动公司的研究团队不仅在技术上取得了突破,还通过开源相关的LoRA(Low-Rank Adaptation)插件,为整个社区的发展做出了贡献。这些插件支持从1到8步的推理,并且提供了一个专门的单步SDXL模型,以进一步推动生成AI社区的发展。

Hyper-SD框架在图像生成领域的贡献是显而易见的。它不仅提高了生成图像的质量和效率,还通过开源其技术,促进了整个行业的技术共享和进步。然而,任何技术都有其局限性。Hyper-SD在实现快速生成高质量图像的同时,也牺牲了一部分模型的通用性。例如,该框架在处理某些特定类型的图像时,可能需要特定的优化策略来进一步提升性能。

此外,尽管Hyper-SD在用户研究中获得了较高的评价,但图像生成的主观性很强,不同用户对图像质量的评价标准可能存在差异。因此,如何进一步提升模型以满足更广泛的用户需求,仍是未来研究需要关注的问题。

论文链接:https://arxiv.org/abs/2404.13686

目录
相关文章
|
1月前
|
物联网
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
29 0
|
1月前
|
物联网
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
31 0
|
1月前
|
物联网
StableDiffusion-03 (准备篇)15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
StableDiffusion-03 (准备篇)15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
27 1
|
1月前
|
并行计算 Ubuntu 物联网
StableDiffusion-03 (准备篇)15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
StableDiffusion-03 (准备篇)15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
28 0
|
4月前
|
域名解析 运维 Serverless
函数计算产品使用问题之除了stable diffusion(稳定扩散)部署方式之外,还有什么部署选项
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
6月前
|
机器学习/深度学习
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024
【5月更文挑战第30天】清华大学研究团队提出的EfficientTrain++是一种新型训练方法,旨在加速视觉基础网络(如ResNet、ConvNeXt、DeiT)的训练,最高可达3倍速度提升,同时保持模型准确性。该方法基于傅里叶谱裁剪和动态数据增强,实现了课程学习的创新应用。在ImageNet-1K/22K数据集上,EfficientTrain++能有效减少多种模型的训练时间,且在自监督学习任务中表现出色。尽管面临适应性与稳定性的挑战,EfficientTrain++为深度学习模型的高效训练开辟了新途径,对学术和工业界具有重要意义。
58 4
|
5月前
|
机器学习/深度学习 异构计算
【保姆级教程|YOLOv8改进】【5】精度与速度双提升,使用FasterNet替换主干网络
【保姆级教程|YOLOv8改进】【5】精度与速度双提升,使用FasterNet替换主干网络
|
6月前
|
机器学习/深度学习 存储 算法
YOLO落地部署 | 让YOLO5和YOLO7等方法都可以用上4-bit/3-bit的超快部署方案
YOLO落地部署 | 让YOLO5和YOLO7等方法都可以用上4-bit/3-bit的超快部署方案
128 0
|
机器学习/深度学习 编解码 Go
YOLOv5-Face | 原理超精细讲解、训练步骤还原、C++边缘部署(就要这么学!!!)(一)
YOLOv5-Face | 原理超精细讲解、训练步骤还原、C++边缘部署(就要这么学!!!)(一)
677 0
|
机器学习/深度学习 存储 人工智能
ACL 2020 | 模型压缩25倍,MIT 韩松组提出高效适配不同硬件的HAT模型
运用注意力机制的 Transformer 模型近几年在 NLP 领域获得了广泛应用。然而,由于参数量和计算量巨大,Transformer 模型难以在存储和算力有限的边缘硬件设备上高效部署。为了解决 Transformer 的低效问题,来自 MIT 的研究人员提出了 HAT: Hardware-Aware Transformers,针对不同的硬件设备的特性,为每个硬件搜索出一个高效的 Transformer 模型,从而在保持精确度的前提下大幅降低内存消耗。在同样的精度下,相比于基线 Transformer, HAT 可以获得 3 倍加速,3.7 倍模型压缩。
288 0
ACL 2020 | 模型压缩25倍,MIT 韩松组提出高效适配不同硬件的HAT模型
下一篇
无影云桌面