【Hello AI】AIACC-ACSpeed性能数据

简介: 本文展示了AIACC-ACSpeed的部分性能数据,相比较通过原生DDP训练模型后的性能数据,使用AIACC-ACSpeed训练多个模型时,性能具有明显提升。

本文展示了AIACC-ACSpeed的部分性能数据,相比较通过原生DDP训练模型后的性能数据,使用AIACC-ACSpeed训练多个模型时,性能具有明显提升。

背景信息

本文以AIACC-ACSpeed(简称ACSpeed)v1.0.2版本在阿里云某8卡机器上的多机性能数据为例,通过测试不同场景下的模型,展示ACSpeed的不同性能提升效果。如果您想了解更多机型性能测试效果,请联系我们

测试版本

  • ACSpeed版本:1.0.2
  • Cuda版本:11.1
  • torch版本:1.8.1+cu111
  • 实例类型:某8卡实例

性能效果

ACSpeed在多个模型下均有相应性能提升效果,整体有5%~200%的性能增益。通过测试ACSpeed训练多个模型后的性能效果,可以看到原生DDP的扩展性(即多机线性度)不佳时,ACSpeed的提升效果越明显,且ACSpeed不会出现性能回退的现象,性能效果展示如下图所示。

涉及的主要概念如下所示:

概念

说明

ddp_acc(横坐标)

表示PyTorch原生分布式DDP的多机多卡的扩展性。

多机多卡扩展性:即多机线性度=多机性能/单机性能/集群数,数值越低扩展性越差。

acc_ratio(纵坐标)

表示ACSpeed相对于原生DDP的性能指标的提升比值。例如,1.25表示ACSpeed的性能是原生DDP性能的1.25倍,即性能提升25%。

圆点

表示具体的某个模型配置的DDP的原生性能和ACSpeed的加速效果,不同颜色表示不同集群规模。

  • 蓝色圆点:表示集群数量为1。
  • 橙色圆点:表示集群数量为2。
  • 红色圆点:表示集群数量为4。
  • 绿色圆点:表示集群数量为8。

典型模型性能数据

本节仅展示了部分已测试的典型模型的性能数据信息。不同场景下的模型,通信计算的占比不同也会导致端到端的性能提升有所差异。如果您需要了解更多测试模型的性能数据,请联系我们。具体测试模型的性能数据如下:

  • 场景1:训练alexnet模型
  • Model:alexnet
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:128
  • Precision:amp

该场景下的alexnet模型训练后的性能数据如下所示:

  • 场景2:训练resnet18模型
  • Model:resnet18
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:16
  • Precision:amp

该场景下的resnet18模型训练后的性能数据如下所示:

  • 场景3:训练resnet50模型
  • Model:resnet50
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:32
  • Precision:amp

该场景下的resnet50模型训练后的性能数据如下所示:

  • 场景4:训练vgg16模型
  • Model:vgg16
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:64
  • Precision:amp

该场景下的vgg16模型训练后的性能数据如下所示:

  • 场景5:训练timm_vovnet模型
  • Model:timm_vovnet
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:32
  • Precision:amp

该场景下的timm_vovnet模型训练后的性能数据如下所示:

  • 场景6:训练timm_vision_transformer模型
  • Model:timm_vision_transformer
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:8
  • Precision:amp

该场景下的timm_vision_transformer模型训练后的性能数据如下所示:

  • 场景7:训练pytorch_unet模型
  • Model:pytorch_unet
  • Domain:COMPUTER_VISION
  • Subdomain:CLASSIFICATION
  • Batch_size:1
  • Precision:amp

该场景下的pytorch_unet模型训练后的性能数据如下所示:

  • 场景8:训练hf_Bart模型
  • Model:hf_Bart
  • Domain:NLP
  • Subdomain:LANGUAGE_MODELING
  • Batch_size:4
  • Precision:amp

该场景下的hf_Bart模型训练后的性能数据如下所示:

  • 场景9:训练hf_Bert模型
  • Model:hf_Bert
  • Domain:NLP
  • Subdomain:LANGUAGE_MODELING
  • Batch_size:4
  • Precision:amp

该场景下的hf_Bert模型训练后的性能数据如下所示:

  • 场景10:训练speech_transformer模型
  • Model:speech_transformer
  • Domain:SPEECH
  • Subdomain:RECOGNITION
  • Batch_size:32
  • Precision:amp

该场景下的speech_transformer模型训练后的性能数据如下所示:

  • 场景11:训练tts_angular模型
  • Model:tts_angular
  • Domain:SPEECH
  • Subdomain:SYNTHESIS
  • Batch_size:64
  • Precision:amp

该场景下的tts_angular模型训练后的性能数据如下所示:

好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关文章
|
14天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
13天前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
42 6
|
6天前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
14天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
8天前
|
人工智能 Java 编译器
.NET 9 发布 性能提升、AI 支持与全方位改进
【11月更文挑战第5天】.NET 9 引入了多项改进,包括性能提升、AI 支持和全方位功能优化。性能方面,编译器增强、服务器 GC 优化、矢量化和硬件支持等提升了执行效率。AI 方面,新增学习材料、合作伙伴生态、原生支持和生成式 AI 集成。此外,.NET Aspire 组件升级、编程语言新功能和开发工具更新进一步提升了开发体验。
|
12天前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
33 6
|
9天前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
24 3
|
14天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
苹果A13芯片细节曝光,大幅提升AI性能
苹果A13芯片使用了台积电7nm极紫外光刻(EUV)工艺,有三个性能核心+四个能效核心。
761 0