备案控制台

开发者社区大淘宝技术文章正文

diffusers SD推理加速方案的调研实践总结（2）

2024-07-15 131

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： diffusers SD推理加速方案的调研实践总结

SD1.5加速测试

基于被广泛使用的diffusers框架，主要测试的加速手段包括oneflow、stable-fast、deepcache以及diffusers官方推荐的一些方法等。同时，也对controlnet使用场景下的加速效果进行了测试。

▐ 测试环境

A10 + cu118 + py310 + torch2.0.1 + diffusers0.26.3文生图，prompt："A photo of a cat. Focus light and create sharp, defined edges."

▐ 测试结果

通过固定seed的方式对生成的图片进行对比，可以发现oneflow编译能够降低rt 40%以上，且精度几乎没有损失，但在使用新的pipeline初次生成图片时，需要几十秒的编译时间作为warmup
deepcache能够在此基础上额外降低15%~25%的rt，但同时随着缓存间隔的增大，生成效果差异也越来越明显
oneflow对使用了controlnet的SD1.5模型也同样有效
stable-fast对外部包的依赖比较严重，容易出现各种版本问题和外部工具报错，与oneflow类似，初次生成图片需要一定的编译时间，最终的加速效果也略逊于oneflow

▐ 详细对比数据

优化方法	平均生成耗时（秒） *512512，50step**	加速效果	生成效果1	生成效果2	生成效果3
diffusers	3.3701	0
diffusers+bf16	3.3669	≈0
diffusers+controlnet	4.7452
diffusers+oneflow编译	1.9857	41.08%
diffusers+oneflow编译+controlnet	2.8017
diffusers+oneflow编译+deepcache	interval=2：1.4581	56.73%(15.65%)
	interval=3：1.3027	61.35%(20.27%)
	interval=5：1.1583	65.63%(24.55%)
diffusers+sfast	2.3799	29.38%

SDXL加速测试

与SD1.5不同，这一部分主要测试了lora使用场景下oneflow、deepcache、lcm-lora的优化效果。

▐ 测试环境

A10 + cu118 + py310 + torch2.0.1 + diffusers0.26.3文生图，prompt："A photo of a cat. Focus light and create sharp, defined edges."

▐ 测试结果

基础sdxl模型：

sdxl模型在固定seed的条件下，使用不同的加速方案似乎更容易影响生成图片的效果
oneflow只能降低24%的rt，但仍然能保证生成图片的精度
deepcache能够提供极其显著的加速，interval为2（即缓存只使用一次）时rt降低42%，interval为5时rt降低69%，但生成图片差异也很明显
lcm-lora显著降低了生图所需步数，能够极大程度地实现推理加速，但在使用预训练权重的情况下，稳定性极差，对步数非常敏感，无法保证稳定产出符合要求的图片
oneflow与deepcache/lcm-lora可以很好地结合起来使用

lora：

加载lora后，diffusers的推理速度明显降低，降低幅度与使用lora的类型和数量有关
deepcache依然有效，也依然存在精度问题，但在缓存间隔较低的情况下差异不大
使用lora的情况下，oneflow编译无法固定seed以保持与原版本一致
oneflow编译优化了加载lora后的推理速度，加载多个lora时，推理rt与未加载lora时相差不大，加速效果极其显著。例如，同时使用yarn+watercolor两个lora，rt能够降低约65%
oneflow对lora加载耗时有较小幅度的优化，但加载lora之后的设置操作耗时增加了

▐ 详细对比数据

优化方法	lora	*平均生成耗时（秒）512512，50step**	lora加载耗时（秒）	lora修改耗时（秒）	效果1	效果2	效果3
diffusers	无	4.5713
	yarn	7.6641	13.9235 11.0447	0.06~0.09 根据配置的lora数量
	watercolor	7.0263
	yarn+watercolor	10.1402
diffusers+bf16	无	4.6610
	yarn	7.6367	12.6095 11.1033	0.06~0.09 根据配置的lora数量
	watercolor	7.0192
	yarn+ watercolor	10.0729
diffusers+deepcache	无	interval=2：2.6402
	yarn	interval=2：4.6076
	watercolor	interval=2：4.3953
	yarn+ watercolor	interval=2：5.9759
	无	interval=5： 1.4068
	yarn	interval=5：2.7706
	watercolor	interval=5：2.8226
	yarn+watercolor	interval=5：3.4852
diffusers+oneflow编译	无	3.4745
	yarn	3.5109	11.7784 10.3166	0.5左右移除lora 0.17
	watercolor	3.5483
	yarn+watercolor	3.5559
diffusers+oneflow编译+deepcache	无	interval=2：1.8972
	yarn	interval=2：1.9149
	watercolor	interval=2：1.9474
	yarn+watercolor	interval=2：1.9647
	无	interval=5：0.9817
	yarn	interval=5：0.9915
	watercolor	interval=5：1.0108
	yarn+watercolor	interval=5：1.0107
diffusers+lcm-lora		4step：0.6113
diffusers+oneflow编译+lcm-lora		4step：0.4488

应用：AI试衣加速

AI试衣业务场景使用了算法在diffusers框架基础上改造的专用pipeline，功能为根据待替换服饰图对原模特图进行换衣，基础模型为SD2.1。

根据调研的结果，deepcache与oneflow是优先考虑的加速方案，同时，由于pytorch版本较低，也可以尝试使用较新版本的pytorch进行加速。

▐ 测试环境

A10 + cu118 + py310 + torch2.0.1 + diffusers0.21.4

图生图（示意图，仅供参考）：

待替换服饰	原模特图

▐ 测试结果

pytorch2.2版本集成了FlashAttention2，更新版本后，推理加速效果明显
deepcache仍然有效，为了尽量不损失精度，可设置interval为2或3
对于被“魔改”的pipeline和子模型，oneflow的图转换功能无法处理部分操作，如使用闭包函数替换forward、使用布尔索引等，而且很多错误原因较难通过报错信息来定位。在进行详细的排查之后，我们尝试了改造原模型代码，对其中不被支持的操作进行替换，虽然成功地在没有影响常规生成效果的前提下完成了改造，通过了oneflow编译，但编译后的生成效果很差，可以看出oneflow对pytorch的支持仍然不够完善
最终采取pytorch2.2.1+deepcache的结合作为加速方案，能够实现rt降低40%~50%、生成效果基本一致且不需要过多改动原服务代码

▐ 详细对比数据

优化方法	平均生成耗时（秒） *576768，25step**	生成效果
diffusers	22.7289
diffusers+torch2.2.1	15.5341
diffusers+torch2.2.1+deepcache	11.7734
diffusers+oneflow编译	17.5857
diffusers+deepcache	interval=2：18.0031
	interval=3：16.5286
	interval=5：15.0359

总结

目前市面上有很多非常好用的开源模型加速工具，pytorch官方也不断将各种广泛采纳的优化技术整合到最新的版本中。

我们在初期的调研与测试环节尝试了很多加速方案，在排除了部分优化效果不明显、限制较大或效果不稳定的加速方法之后，初步认为deepcache和oneflow是多数情况下的较优解。

但在解决实际线上服务的加速问题时，oneflow表现不太令人满意，虽然oneflow团队针对SD系列模型开发了专用的加速工具包onediff，且一直保持高更新频率，但当前版本的onediff仍存在不小的限制。

如果使用的SD pipeline没有对unet的各种子模块进行复杂修改，oneflow仍然值得尝试；否则，确保pytorch版本为最新的稳定版本以及适度使用deepcache可能是更省心且有效的选择。

相关资料

FlashAttention：

oneflow

stable-fast

https://github.com/chengzeyi/stable-fast

deepcache

https://github.com/horseee/DeepCache

lcm-lora

https://latent-consistency-models.github.io/

pytorch 2.2
https://pytorch.org/blog/pytorch2-2/

团队介绍

我们是淘天集团内容技术AI工程团队，通过搭建完善的算法工程化一站式平台，辅助上千个淘宝图文、视频、直播等泛内容领域算法的工程落地、部署和优化，承接每日上亿级别的数字内容数据，支撑并推动AI技术在淘宝内容社交生态中的广泛应用。

文章标签：

物联网

资源调度

算法框架/工具

PyTorch

人工智能

技术小达人

目录

相关文章

阿里云大数据Al技术

|

7月前

|

机器学习/深度学习人工智能算法

AI加速引擎PAI-TorchAcc：OLMo训练加速最佳实践

阿里云机器学习平台PAI开发的Pytorch训练加速框架PAI-TorchAcc已接入最新开源的大语言模型 OLMo。在保证模型效果和易用性的前提下，PAI-TorchAcc相对 PyTorch 性能在 OLMo 1B 上加速比达到 1.64X，在 OLMo 7B 上加速比达到 1.52X。本文分析了 PAI-TorchAcc 的性能收益来源。

阿里云大数据Al技术

1113 48 52

温柔的养猫人

|

机器学习/深度学习人工智能算法

阿里公开自研AI集群细节：64个GPU，百万分类训练速度提升4倍

从节点架构到网络架构，再到通信算法，阿里巴巴把自研的高性能AI集群技术细节写成了论文，并对外公布。

温柔的养猫人

3557 0 1

阿里公开自研AI集群细节：64个GPU，百万分类训练速度提升4倍

游客4egshivbqn3ei

|

3月前

|

存储人工智能弹性计算

函数计算部署 AI 大模型解决方案测评

函数计算部署 AI 大模型解决方案测评

游客4egshivbqn3ei

62 1 1

技术小达人

|

5月前

|

缓存人工智能并行计算

diffusers SD推理加速方案的调研实践总结（1）

diffusers SD推理加速方案的调研实践总结

技术小达人

210 13 14

龙蜥社区（OpenAnolis）

|

5月前

|

机器学习/深度学习人工智能弹性计算

重新定义 AI 部署效率与性能，ZOLOZ 借助 AC2 实现低成本高性能的提优的方式｜ AI 案例推荐

ZOLOZ，视觉 AI 推理的算力和成本问题求解。

龙蜥社区（OpenAnolis）

312 7 7

阿里云大数据Al技术

|

7月前

|

人工智能前端开发 PyTorch

AI加速引擎PAI-TorchAcc：整体介绍与性能概述

PAI-TorchAcc(Torch Accelerator)是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架。PAI-TorchAcc提供了一套基于Pytorch的简洁、易用的接口，无需进行模型转换就可以无缝地接入HuggingFace上的模型，并用多种分布式策略进行训练加速。本文详细介绍PAI-TorchAcc的产品能力与性能。

阿里云大数据Al技术

114700 166 204

汀丶人工智能

|

7月前

|

机器学习/深度学习缓存算法

LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]

LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]

汀丶人工智能

2089 4 4

LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]

弹性计算-百晓生

|

7月前

|

机器学习/深度学习人工智能弹性计算

阿里云林立翔：基于阿里云GPU的AIGC小规模训练优化方案

阿里云弹性计算林立翔在【AIGC】话题下带来了题为《基于阿里云GPU的AIGC小规模训练优化方案》的主题演讲，围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。

弹性计算-百晓生

66377 76 78

ModelScope运营小助手

|

7月前

|

Linux API 开发者

元象大模型开源30款量化版本加速低成本部署丨附教程

元象大模型一次性发布30款量化版本，全开源，无条件免费商用。

ModelScope运营小助手

649 1 1

楠竹11

|

7月前

|

机器学习/深度学习自动驾驶搜索推荐

大模型技术的端侧部署

【1月更文挑战第14天】大模型技术的端侧部署

楠竹11

651 4 4

大淘宝技术

热门文章

最新文章

使用cProfile等工具来提高python的执行速度

四大触点，教你从“用户视角”构建数据分析体系

Spring-boot+Dubbo应用启停源码分析

docker阿里云镜像加速

《Stata统计分析与应用（第2版）》一3.4 图形的保存、合并及修改

语言设计中的鸭子类型风格

ActionBar的使用

[20150529]ORA-16664.txt

25个优秀的国外单页网站设计作品欣赏

人际风格的四大分类

【SpringFramework】Spring初体验

「Mac畅玩鸿蒙与硬件46」UI互动应用篇23 - 自定义天气预报组件

CDP与Selenium相结合——玩转网页端自动化数据采集/爬取程序

解决Redis缓存数据类型丢失问题

Flink 2.0 存算分离状态存储 — ForSt DB

RDS通用云盘核心能力

体验云数据库RDS通用云盘核心能力

产品动态丨阿里云弹性计算产品月刊（2024年11月）

确保 Active Directory 安全性的方法

【实践】快速学会使用云消息队列RabbitMQ版

相关课程

更多

云原生AI套件：一键训练大模型及部署GPU共享推理服务

使用Higress AI网关优化AI调用成本

视觉AI技术体系及趋势概述

云原生AI套件：五分钟微调宝可梦风格StableDiffusion

AIGC无处不在，把AI应用构建于Serverless之上

大数据分析之企业级网站流量运营分析系统开发实战（第二阶段）

相关电子书

更多

端到端GPU性能在深度学学习场景下的应用实践

七牛AI训练业务的K8S实践

超大规模性能测试的云端方案及案例分享

相关实验场景

更多

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

使用容器计算服务 ACS 算力快速搭建生成式 AI 会话应用

在SAE控制台极速部署个人LLM效能工具

SAE 极速部署专属 AI 证件照神器

流水线运行出错排查难？AI帮你智能排查

以电商场景为例搭建AI语义搜索应用

下一篇