本文展示了AIACC-AGSpeed(简称AGSpeed)的部分性能数据,相比较通过PyTorch原生Eager模式训练模型后的性能数据,使用AGSpeed训练多个模型时,性能具有明显提升。
背景信息
本文通过测试不同场景下的模型,展示AGSpeed的不同性能提升效果。如果您想了解更多模型的性能测试效果,请联系我们。
性能数据
本示例数据以hf_GPT2、hf_Bert、resnet50,timm_efficientnet等50多个模型为例,通过FP32精度和AMP混合精度两种场景进行训练,不同场景下各模型训练后的性能数据如下所示:
- FP32精度训练场景
- AMP混合精度场景
上述性能数据图中,横坐标和纵坐标的含义如下所示:
- 横坐标:代表所有参加训练的模型。
- 纵坐标:代表相比PyTorch原生Eager模式,模型使用AGSpeed训练后的加速比。加速比大于1.0表示性能提升有所提升。
性能效果
相比PyTorch原生的Eager模式,通过AGSpeed训练模型后,性能提升率如下所示。以吞吐量作为性能指标来展示AGSpeed的性能效果,性能提升率=(吞吐量(AGSpeed)-吞吐量(Eager))/吞吐量(Eager)。
说明:下图中的数据仅展示部分典型模型,如果您想了解更多模型的性能提升效果,请联系我们。
模型 |
精度 |
吞吐量(Eager) |
吞吐量(AGSpeed) |
性能提升率 |
resnet50 v1.5 |
TF32 |
8195 images/s |
9222 images/s |
提升12.5% |
AMP |
17160 images/s |
17592 images/s |
提升2.5% |
|
SSD |
TF32 |
2282 images/s |
2427 images/s |
提升9.9% |
AMP |
3312 images/s |
3679 images/s |
提升11.1% |
|
BERT |
TF32 |
2464 sequences/s |
2589 sequences/s |
提升5.1% |
AMP |
4689 sequences/s |
5031 sequences/s |
提升7.3% |
|
nnUnet3D |
TF32 |
89.21 images/s |
98.42 images/s |
提升6.8% |
AMP |
151.27 images/s |
161.52 images/s |
提升6.8% |
好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8
【扫码填写上方调研问卷】
欢迎每位来到弹性计算的开发者们来反馈问题哦~