加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

简介: 【5月更文挑战第9天】字节跳动研究团队推出Hyper-SD框架,实现快速图像生成,仅需1步即可达SOTA水平。该框架采用TSCD技术减少误差,整合ReFL优化加速模型,提高图像质量。在1步推理时,Hyper-SDXL在CLIP和Aes Score上超越SDXL-Lightning。开源LoRA插件促进社区发展,但可能牺牲部分模型通用性,未来仍需关注用户需求多样性。[论文链接](https://arxiv.org/abs/2404.13686)

在人工智能领域,图像生成技术一直是研究的热点。随着深度学习技术的不断进步,生成模型的能力也在不断提升。最近,字节跳动公司的研究团队在这一领域取得了显著的进展,他们提出了一种名为Hyper-SD的新型框架,该框架能够在极少的推理步骤下生成高质量的图像,并且在某些情况下,只需1步即可达到SOTA(State of the Art,即业界最佳水平)的性能。这一研究成果不仅在技术上具有创新性,而且对整个图像生成领域的发展具有重要的推动作用。

Hyper-SD框架的核心创新在于其独特的“轨迹分段一致性蒸馏”(Trajectory Segmented Consistency Distillation,简称TSCD)技术。这项技术通过将整个时间步范围分割成多个小段,并在每个小段内进行一致性蒸馏,从而实现了对原始轨迹的精细保留。这种方法有效地减少了模型拟合过程中的累积误差,提高了生成图像的质量。

此外,Hyper-SD框架还整合了人类反馈学习(Human Feedback Learning,简称ReFL)技术,通过优化加速模型的ODE(常微分方程)轨迹,使其更适合少步骤推理。这一技术的运用,使得在某些情况下,加速模型的性能甚至超过了原始模型。

在实验中,Hyper-SD在1到8步推理的情况下,对于SDXL和SD1.5两种架构均展现出了SOTA性能。特别是在1步推理的情况下,Hyper-SDXL在CLIP Score和Aes Score两个指标上分别超过了SDXL-Lightning 0.68和0.51,这一结果在图像生成领域是相当惊人的。

为了更全面地评估模型性能,研究团队还进行了广泛的用户研究。用户研究的结果表明,Hyper-SD在多种设置和方法中获得了显著更多的用户偏好,尤其是在与同一架构的基线模型相比时,Hyper-SD15在用户偏好上拥有超过三分之二的优势。

字节跳动公司的研究团队不仅在技术上取得了突破,还通过开源相关的LoRA(Low-Rank Adaptation)插件,为整个社区的发展做出了贡献。这些插件支持从1到8步的推理,并且提供了一个专门的单步SDXL模型,以进一步推动生成AI社区的发展。

Hyper-SD框架在图像生成领域的贡献是显而易见的。它不仅提高了生成图像的质量和效率,还通过开源其技术,促进了整个行业的技术共享和进步。然而,任何技术都有其局限性。Hyper-SD在实现快速生成高质量图像的同时,也牺牲了一部分模型的通用性。例如,该框架在处理某些特定类型的图像时,可能需要特定的优化策略来进一步提升性能。

此外,尽管Hyper-SD在用户研究中获得了较高的评价,但图像生成的主观性很强,不同用户对图像质量的评价标准可能存在差异。因此,如何进一步提升模型以满足更广泛的用户需求,仍是未来研究需要关注的问题。

论文链接:https://arxiv.org/abs/2404.13686

目录
相关文章
|
自然语言处理 数据可视化 物联网
Qwen1.5-MoE开源,魔搭社区推理训练最佳实践教程来啦
通义千问团队推出Qwen系列的首个MoE模型,Qwen1.5-MoE-A2.7B。
|
Rust 安全 程序员
Rust与C++:内存管理与安全性的比较
本文将对Rust和C++两种编程语言在内存管理和安全性方面进行深入比较。我们将探讨Rust如何通过其独特的所有权系统和生命周期管理来消除内存泄漏和悬挂指针等常见问题,并对比C++在这方面的挑战。此外,我们还将讨论Rust的类型系统和编译器如何在编译时捕获许多常见的运行时错误,从而提高代码的安全性。
|
17天前
|
存储 人工智能 搜索推荐
Mem0 + Milvus:为人工智能构建持久化长时记忆
Mem0 为AI打造持久记忆层,结合Milvus向量数据库,让智能体记住用户偏好、追溯历史对话,实现个性化持续交互,告别“健忘”AI。
Mem0 + Milvus:为人工智能构建持久化长时记忆
|
3月前
|
机器学习/深度学习 人工智能 机器人
Meta AI Research:虚拟/可穿戴/机器人三位一体的AI进化路径
本文阐述了我们对具身AI代理的研究——这些代理以视觉、虚拟或物理形式存在,使其能够与用户及环境互动。这些代理包括虚拟化身、可穿戴设备和机器人,旨在感知、学习并在其周围环境中采取行动。与非具身代理相比,这种特性使它们更接近人类的学习与环境交互方式。我们认为,世界模型的构建是具身AI代理推理与规划的核心,这使代理能够理解并预测环境、解析用户意图及社会背景,从而增强其自主完成复杂任务的能力。世界建模涵盖多模态感知的整合、通过推理进行行动规划与控制,以及记忆机制,以形成对物理世界的全面认知。除物理世界外,我们还提出需学习用户的心理世界模型,以优化人机协作。
150 3
|
存储 小程序 物联网
|
3月前
|
Web App开发 Linux API
模拟微信内置浏览器,微信UA生成器,支持指纹代理IP
该实现包含完整的微信浏览器模拟功能,支持UA生成、指纹伪装和代理IP管理。使用时需要安装sele
|
10月前
|
人工智能 物联网 C语言
SVDQuant:MIT 推出的扩散模型后训练的量化技术,能够将模型的权重和激活值量化至4位,减少内存占用并加速推理过程
SVDQuant是由MIT研究团队推出的扩散模型后训练量化技术,通过将模型的权重和激活值量化至4位,显著减少了内存占用并加速了推理过程。该技术引入了高精度的低秩分支来吸收量化过程中的异常值,支持多种架构,并能无缝集成低秩适配器(LoRAs),为资源受限设备上的大型扩散模型部署提供了有效的解决方案。
543 5
SVDQuant:MIT 推出的扩散模型后训练的量化技术,能够将模型的权重和激活值量化至4位,减少内存占用并加速推理过程
|
7月前
|
机器学习/深度学习 数据可视化
Visual-RFT:基于强化学习的视觉语言模型微调技术研究
Visual-RFT 是一种创新的视觉语言模型微调技术,结合基于规则的可验证奖励与强化学习,克服了传统监督微调在数据稀缺场景下的局限。它通过渐进式推理和多样化响应生成,优化模型在对象检测、图像分类等任务中的表现,尤其适用于少样本学习。该方法采用组相对策略优化(GRPO)进行参数更新,简化了强化学习流程,同时保持高效性。实验结果表明,Visual-RFT 在细粒度分类和推理定位等任务中显著优于传统方法,展示了其在实际应用中的巨大潜力。
301 1
Visual-RFT:基于强化学习的视觉语言模型微调技术研究
|
8月前
|
存储 弹性计算 关系型数据库
【赵渝强老师】达梦数据库的产品系列
达梦数据库是达梦公司推出的新一代自研数据库,融合分布式、弹性计算与云计算优势,支持超大规模并发事务处理和HTAP混合业务。产品体系包括DM8、DMDSC、DM DataWatch、DMMPP和DMRWC,分别适用于通用关系型数据库、共享存储集群、数据守护集群、大规模数据分析及读写分离场景,满足不同需求并保障高可用性和安全性。
334 36
|
安全
技术笔记:KERMIT,XMODEM,YMODEM,ZMODEM传输协议小结(转)
技术笔记:KERMIT,XMODEM,YMODEM,ZMODEM传输协议小结(转)
516 0