BlockDance:扩散模型加速革命!复旦字节联手实现50%无损提速

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: BlockDance 是复旦大学与字节跳动联合推出的扩散模型加速方法,通过识别重用相邻时间步中的结构相似特征,减少冗余计算,最高可加速50%,同时保持生成质量。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


⏱️ 「别让AI画画等成PPT!国产黑科技让Stable Diffusion飙车」

大家好,我是蚝油菜花。你是否也经历过这些AI炼丹惨案——

  • 👉 等4K图生成等到咖啡凉透,结果手部还是八爪鱼
  • 👉 公司算力账单比市场部预算还高,CTO眼神逐渐核善
  • 👉 想实时改图却被进度条PUA,创意火花死在加载中...

今天要破局的 BlockDance 正在重构生成式AI速度法则!这个学术派加速神器:

  • 时空特征捕手:智能识别95%冗余计算,Diffusion模型直接瘦身
  • ✅ 「无损加速」黑盒:强化学习动态分配资源,4K图生成提速50%
  • ✅ 字节复旦双buff:已整合进最新视频生成管线,秒出高清序列

已有游戏公司用它实时渲染CG,广告团队靠它批量生成营销素材——你的扩散模型,是时候开启「涡轮增压」模式了!

🚀 快速阅读

BlockDance 是一种用于加速扩散模型推理的新方法。

  1. 核心功能:通过减少冗余计算,显著提升推理速度,同时保持生成质量。
  2. 技术原理:基于特征相似性分析、缓存与重用机制,以及强化学习优化,实现高效加速。

BlockDance 是什么

BlockDance

BlockDance 是复旦大学与字节跳动智能创作团队联合推出的一种扩散模型加速方法。它通过识别重用相邻时间步中结构相似的时空特征(STSS),减少冗余计算,从而提升推理速度,最高可加速50%。

BlockDance 专注于去噪后期的结构特征,避免因重用低相似度特征导致的图像质量下降。此外,BlockDance 还引入了 BlockDance-Ada,基于强化学习动态分配计算资源,根据不同实例的复杂性调整加速策略,进一步优化内容质量和推理速度。

BlockDance 的主要功能

  • 加速推理过程:基于减少冗余计算,将 DiTs 的推理速度提升 25% 至 50%,提高模型在实际应用中的效率。
  • 保持生成质量:在加速的同时,保持与原始模型一致的生成效果,确保图像和视频的视觉质量、细节表现和对提示的遵循程度。
  • 动态资源分配:基于 BlockDance-Ada,根据不同生成任务的复杂性动态调整计算资源分配,实现更优的速度与质量平衡。
  • 广泛的适用性:支持无缝应用于多种扩散模型和生成任务,如图像生成、视频生成等,具有很强的通用性。

BlockDance 的技术原理

  • 特征相似性分析:在扩散模型的去噪过程中,相邻时间步的特征之间存在高度相似性,尤其是在模型的浅层和中层模块中。模块主要负责生成图像的结构信息,结构信息在去噪过程的早期阶段就已经相对稳定。BlockDance 基于分析特征的相似性,识别出结构相似的时空特征(Structurally Similar Spatio-Temporal,STSS),作为加速的关键点。
  • 缓存与重用机制:将去噪过程分为“缓存步骤”和“重用步骤”。在缓存步骤中,模型保存当前步骤中某些模块的特征输出。在后续的重用步骤中,模型直接使用之前缓存的特征,跳过模块的重复计算,节省计算资源。
  • 动态决策网络(BlockDance-Ada):引入 BlockDance-Ada,基于强化学习的轻量级决策网络。根据当前生成任务的复杂性(例如图像的结构复杂性、对象数量等),动态决定哪些步骤应该进行缓存,哪些步骤能进行重用。动态调整机制让 BlockDance 在不同的生成任务和模型上实现更优的速度与质量平衡。
  • 强化学习优化:用强化学习中的策略梯度方法训练决策网络。基于设计奖励函数,平衡图像质量和计算效率之间的权衡。奖励函数包括图像质量奖励(如视觉美感、对提示的遵循程度)和计算奖励(如重用步骤的比例)。基于最大化预期奖励,决策网络能学习到最优的缓存和重用策略,在保持生成质量的同时实现最大的加速效果。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
人工智能 自然语言处理 并行计算
Chitu:清华核弹级开源!推理引擎3倍提速+50%省卡,国产芯片告别英伟达绑架
Chitu(赤兔)是清华大学与清程极智联合开源的高性能大模型推理引擎,支持多硬件适配,显著提升推理效率,适用于金融、医疗、交通等多个领域。
651 10
Chitu:清华核弹级开源!推理引擎3倍提速+50%省卡,国产芯片告别英伟达绑架
|
6月前
|
人工智能 程序员 API
Motia:程序员福音!AI智能体三语言混编,零基础秒级部署
Motia 是一款专为软件工程师设计的 AI Agent 开发框架,支持多种编程语言,提供零基础设施部署、模块化设计和内置可观测性功能,帮助开发者快速构建和部署智能体。
494 15
Motia:程序员福音!AI智能体三语言混编,零基础秒级部署
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
Reve Image:设计师失业警告!AI秒出海报级神图,排版自动搞定
Reve Image 是 Reve 推出的全新 AI 图像生成模型,专注于提升美学表现、精确的提示遵循能力以及出色的排版设计,能生成高质量的视觉作品。
442 29
Reve Image:设计师失业警告!AI秒出海报级神图,排版自动搞定
|
6月前
|
人工智能 网络协议 Java
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
RuoYi AI 是一个全栈式 AI 开发平台,支持本地 RAG 方案,集成多种大语言模型和多媒体功能,适合企业和个人开发者快速搭建个性化 AI 应用。
1618 77
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
|
6月前
|
人工智能 物联网 UED
Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动
Soundwave 是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解,支持语音翻译、语音问答、情绪识别等功能,广泛应用于智能语音助手、语言学习等领域。
318 13
Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动
|
6月前
|
人工智能 自然语言处理 算法
MT-MegatronLM:国产训练框架逆袭!三合一并行+FP8黑科技,大模型训练效率暴涨200%
MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,支持多种模型架构和高效混合并行训练,显著提升 GPU 集群的算力利用率。
457 18
|
6月前
|
人工智能 负载均衡 调度
COMET:字节跳动开源MoE训练加速神器,单层1.96倍性能提升,节省百万GPU小时
COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,通过细粒度的计算-通信重叠技术,显著提升分布式训练效率,支持多种并行策略和大规模集群部署。
307 9
|
6月前
|
机器学习/深度学习 人工智能 缓存
SepLLM:开源大模型加速神器!400万Token长文本推理提速50%,告别OOM噩梦
SepLLM 是一个用于加速大语言模型的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理速度和计算效率,适用于长文本处理和多场景部署。
196 7
SepLLM:开源大模型加速神器!400万Token长文本推理提速50%,告别OOM噩梦
|
6月前
|
人工智能 数据可视化 C++
Math24o:SuperCLUE开源的高中奥数推理测评基准,85.71分屠榜
Math24o是首个针对高中奥林匹克数学竞赛的中文大模型测评基准,采用2024年预赛真题实现自动化评估,为模型数学推理能力提供客观衡量标准。
196 48
Math24o:SuperCLUE开源的高中奥数推理测评基准,85.71分屠榜
|
6月前
|
机器学习/深度学习 人工智能 Rust
MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭
MoshiVis 是 Kyutai 推出的开源多模态语音模型,结合视觉与语音输入,支持实时交互,适用于无障碍应用、智能家居控制等多个场景。
308 28
MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭

热门文章

最新文章