Deepytorch作为阿里云自研的AI加速器,面向生成式AI和大模型场景,提供了训练和推理加速能力。其中,在训练方面,通过整合分布式通信和计算图编译的性能优化,在保障精度的前提下实现端到端训练性能的显著提升,为您带来更低的成本和更敏捷的迭代。同时Deepytorch具有无感适配和充分兼容开源生态等特点,使AI研发人员可以轻松集成并享受训练加速效果。
本文主要介绍Deepytorch在训练加速上的概念、优势及特性。
一、产品优势
- 训练性能显著提升
Deepytorch通过整合分布式通信和计算图编译的性能特点,可以实现端到端训练性能的显著提升,使得模型训练迭代速度更快,不仅减少了资源的使用成本,还缩短了迭代的时间成本,为您带来低成本体验。
例如,不同模型下的训练性能对比如下:
模型 |
节点数 x GPU数 |
配置信息 |
端到端性能提升率 |
stable diffusion v2.1(模型训练方法:dreambooth) |
1 x 1 |
|
提升22% |
stable diffusion v2.1(模型训练方法:dreambooth) |
1 x 1 |
|
提升21% |
LLaMa-7B |
2 x 8 |
|
提升15% |
LLaMa-13B |
2 x 8 |
|
提升29% |
LLaMa-30B |
2 x 8 |
|
提升98% |
LLaMa-65B |
2 x 8 |
|
提升30% |
- 易用性好
- Deepytorch具有充分兼容开源生态等特点,其兼容PyTorch主流版本,支持主流分布式训练框架。例如DeepSpeed、PyTorch FSDP或Megatron-LM等。
- 使用Deepytorch时,仅需在Python训练代码中添加如下适配代码即可。
- 导入Deepytorch库的示例代码:
import deepytorch as dpt
- 封装训练模型的示例代码:
dpt.compile
二、特性说明
Deepytorch在AI训练的通信和计算方面具有显著的加速效果,具体说明如下:
- 通信侧优化特性
- 单机优化
单机内的优化主要针对不同硬件拓扑机型的通信优化。以PCIe互连的机型和NVLink互连的机型为例,具体说明如下:
- PCIe互连拓扑优化:该机型的多GPU卡之间共享PCIe带宽,通信容易受限于物理带宽。针对PCIe互连拓扑的通信优化,可以采用基于流水线的PS(Parameters Server:参数服务器)模式梯度规约算法CPU-Reduce来降低通信耗时,该算法按照GPU到CPU再到GPU的顺序构建流水线,将梯度规约的计算分散到多个设备上运行,来减少通信瓶颈。
例如,在通信数据量超过4 MB的场景下,PCIe互连拓扑优化方案相比NCCL原生在性能上提升了20%以上。
- NVLink互连拓扑优化:NCCL默认使用的Binary-Tree算法在V100机型上并不能充分发挥多通道性能。针对NVLink互连拓扑的通信优化,可以通过扩展单机内部不同的N-Trees拓扑结构组合,实现拓扑调优并充分发挥多通道性能。
例如,在通信数据量超过128 MB的场景下,NVLink互连拓扑优化方案相比NCCL原生在性能上提升了20%以上。
- 多机优化
多机优化体现在通信算子编译优化、TCP多流优化、多机CPU-Reduce优化三个方面,具体说明如下:
- 通信算子编译优化:针对阿里云上不同机型,以及网卡与GPU的不同拓扑连接等特点,相比较基于全局拓扑结构实现的Allreduce、Allgather或Reduce-scatter等算法,Hybrid+算法支持单机和多机的分层通信,充分利用单机内部高速带宽的同时降低了多机之间的通信量,通信算子编译优化方案相比NCCL原生在性能上提升了50%以上。
- 通信多流优化:通常情况下,因网络带宽没有被充分利用,会导致上层集合通信算法的跨机性能无法达到最优。而采用基于TCP/IP的多流功能,提升分布式训练的并发通信能力,可以实现多机训练性能提升5%~20%。
- 多机CPU-Reduce:该优化继承了单机内CPU-Reduce高效的异步流水线,并将跨机Socket通信也设计为流水线形态,实现多机通信全过程流水化,有效减少通信延迟,提高整体训练性能。
例如,在通信量较大的Transformer-based模型的多机训练场景下,多机CPU-Reduce优化方案可将端到端性能进一步提升20%以上。
- 计算侧优化特性
Deepytorch针对Pytorch 2.x的编译优化组件进行了性能和鲁棒性方面的增强,其特性说明如下:
- 对TorchDynamo的字节码转换逻辑进行了鲁棒性方面的增强。如果Pytorch 2.x的编译优化组件无法成功处理字节转换,则会导致抓取的计算图被分割(即Graph Break),而使用Deepytorch能够有效避免该现象,并可以对Guard的性能进行优化。
- 对AOT Autograd进行了优化,显著地提升了Memory Format不一致场景下的训练性能。
- 对TorchInductor进行了优化,对部分算子(例如SDPA算子)带来额外的性能提升。
- 针对Stable Diffusion训练场景提供定制化的性能优化方案,能够在多种训练配置下无感地提升训练性能。
- 针对基于DeepSpeed ZeRO的LLM微调训练场景提供了定制化的性能优化方案,能够在多种ZeRO配置下无感地提升训练性能。
好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8
【扫码填写上方调研问卷】
欢迎每位来到弹性计算的开发者们来反馈问题哦~