备案控制台

开发者社区弹性计算云服务器ECS 文章正文

【Hello AI】AIACC-ACSpeed性能数据

2024-01-29 341

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文展示了AIACC-ACSpeed的部分性能数据，相比较通过原生DDP训练模型后的性能数据，使用AIACC-ACSpeed训练多个模型时，性能具有明显提升。

本文展示了AIACC-ACSpeed的部分性能数据，相比较通过原生DDP训练模型后的性能数据，使用AIACC-ACSpeed训练多个模型时，性能具有明显提升。

背景信息

本文以AIACC-ACSpeed（简称ACSpeed）v1.0.2版本在阿里云某8卡机器上的多机性能数据为例，通过测试不同场景下的模型，展示ACSpeed的不同性能提升效果。如果您想了解更多机型性能测试效果，请联系我们。

测试版本

ACSpeed版本：1.0.2
Cuda版本：11.1
torch版本：1.8.1+cu111
实例类型：某8卡实例

性能效果

ACSpeed在多个模型下均有相应性能提升效果，整体有5%~200%的性能增益。通过测试ACSpeed训练多个模型后的性能效果，可以看到原生DDP的扩展性（即多机线性度）不佳时，ACSpeed的提升效果越明显，且ACSpeed不会出现性能回退的现象，性能效果展示如下图所示。

涉及的主要概念如下所示：

概念	说明
ddp_acc（横坐标）	表示PyTorch原生分布式DDP的多机多卡的扩展性。多机多卡扩展性：即多机线性度=多机性能/单机性能/集群数，数值越低扩展性越差。
acc_ratio（纵坐标）	表示ACSpeed相对于原生DDP的性能指标的提升比值。例如，1.25表示ACSpeed的性能是原生DDP性能的1.25倍，即性能提升25%。
圆点	表示具体的某个模型配置的DDP的原生性能和ACSpeed的加速效果，不同颜色表示不同集群规模。蓝色圆点：表示集群数量为1。橙色圆点：表示集群数量为2。红色圆点：表示集群数量为4。绿色圆点：表示集群数量为8。

典型模型性能数据

本节仅展示了部分已测试的典型模型的性能数据信息。不同场景下的模型，通信计算的占比不同也会导致端到端的性能提升有所差异。如果您需要了解更多测试模型的性能数据，请联系我们。具体测试模型的性能数据如下：

场景1：训练alexnet模型

Model：alexnet
Domain：COMPUTER_VISION
Subdomain：CLASSIFICATION
Batch_size：128
Precision：amp

该场景下的alexnet模型训练后的性能数据如下所示：

场景2：训练resnet18模型

Model：resnet18
Domain：COMPUTER_VISION
Subdomain：CLASSIFICATION
Batch_size：16
Precision：amp

该场景下的resnet18模型训练后的性能数据如下所示：

场景3：训练resnet50模型

Model：resnet50
Domain：COMPUTER_VISION
Subdomain：CLASSIFICATION
Batch_size：32
Precision：amp

该场景下的resnet50模型训练后的性能数据如下所示：

场景4：训练vgg16模型

Model：vgg16
Domain：COMPUTER_VISION
Subdomain：CLASSIFICATION
Batch_size：64
Precision：amp

该场景下的vgg16模型训练后的性能数据如下所示：

场景5：训练timm_vovnet模型

Model：timm_vovnet
Domain：COMPUTER_VISION
Subdomain：CLASSIFICATION
Batch_size：32
Precision：amp

该场景下的timm_vovnet模型训练后的性能数据如下所示：

场景6：训练timm_vision_transformer模型

Model：timm_vision_transformer
Domain：COMPUTER_VISION
Subdomain：CLASSIFICATION
Batch_size：8
Precision：amp

该场景下的timm_vision_transformer模型训练后的性能数据如下所示：

场景7：训练pytorch_unet模型

Model：pytorch_unet
Domain：COMPUTER_VISION
Subdomain：CLASSIFICATION
Batch_size：1
Precision：amp

该场景下的pytorch_unet模型训练后的性能数据如下所示：

场景8：训练hf_Bart模型

Model：hf_Bart
Domain：NLP
Subdomain：LANGUAGE_MODELING
Batch_size：4
Precision：amp

该场景下的hf_Bart模型训练后的性能数据如下所示：

场景9：训练hf_Bert模型

Model：hf_Bert
Domain：NLP
Subdomain：LANGUAGE_MODELING
Batch_size：4
Precision：amp

该场景下的hf_Bert模型训练后的性能数据如下所示：

场景10：训练speech_transformer模型

Model：speech_transformer
Domain：SPEECH
Subdomain：RECOGNITION
Batch_size：32
Precision：amp

该场景下的speech_transformer模型训练后的性能数据如下所示：

场景11：训练tts_angular模型

Model：tts_angular
Domain：SPEECH
Subdomain：SYNTHESIS
Batch_size：64
Precision：amp

该场景下的tts_angular模型训练后的性能数据如下所示：

好啦！小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽，请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

文章标签：

数据挖掘

人工智能

测试技术

自然语言处理

弹性计算

关键词：

AI数据

AI性能

AI性能数据

hello AI aiacc-acspeed

弹性计算-小弹

目录

相关文章

蚝油菜花

|

7天前

|

存储人工智能人机交互

PC Agent：开源 AI 电脑智能体，自动收集人机交互数据，模拟认知过程实现办公自动化

PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统，能够模拟人类认知过程，自动化执行复杂的数字任务，如组织研究材料、起草报告等，展现了卓越的数据效率和实际应用潜力。

蚝油菜花

69 1 1

PC Agent：开源 AI 电脑智能体，自动收集人机交互数据，模拟认知过程实现办公自动化

蚝油菜花

|

24天前

|

机器学习/深度学习人工智能

SNOOPI：创新 AI 文本到图像生成框架，提升单步扩散模型的效率和性能

SNOOPI是一个创新的AI文本到图像生成框架，通过增强单步扩散模型的指导，显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术，分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型，尤其在HPSv2得分达到31.08，成为单步扩散模型的新标杆。

蚝油菜花

65 10 11

SNOOPI：创新 AI 文本到图像生成框架，提升单步扩散模型的效率和性能

ZOMI酱

|

24天前

|

存储机器学习/深度学习人工智能

【AI系统】完全分片数据并行 FSDP

本文深入探讨了AI框架中针对权重数据、优化器数据和梯度数据的分布式并行实现，特别是在PyTorch框架下的具体方案。文章首先回顾了通用数据并行和分布式数据并行的概念，重点讨论了同步与异步数据并行的差异。接着，文章详细介绍了如何在PyTorch中实现弹性数据并行，特别是完全分片数据并行（FSDP）的机制，包括其如何通过分片模型状态和剩余状态来减少内存消耗，提高训练效率。此外，文章还探讨了混合精度训练、损失缩放和内存消耗估算等关键技术，为理解和实施高效的分布式训练提供了全面的指导。

ZOMI酱

58 9 9

【AI系统】完全分片数据并行 FSDP

ZOMI酱

|

24天前

|

机器学习/深度学习人工智能 PyTorch

【AI系统】数据并行

数据并行是一种在分布式AI系统中广泛应用的技术，通过将数据集划分成多个子集并在不同计算节点上并行处理，以提高计算效率和速度。在大规模机器学习和深度学习训练中，数据并行可以显著加快模型训练速度，减少训练时间，提升模型性能。每个计算节点接收完整的模型副本，但处理不同的数据子集，从而分摊计算任务，提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行，按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中，分布式数据并行（DDP）是当前应用最广泛的并行算法之一，通过高效的梯度聚合和参数同步机制，确保模型一致性，适用于大型NPU集群和AI系统。

ZOMI酱

93 7 7

站大爷

|

15天前

|

机器学习/深度学习人工智能负载均衡

利用AI智能分析代理IP流量：提升网站性能的新策略

在数字时代，网站性能至关重要。代理IP技术广泛应用于突破地域限制、保护隐私和优化访问速度，但也带来了服务器负担加重和安全风险。AI智能分析代理IP流量成为有效策略，通过精准识别、动态调整和预测分析，提升网站性能和安全性。案例显示，某电商平台通过AI智能分析成功提升了访问速度和安全性，用户满意度显著提高。未来，AI技术将进一步优化代理IP应用，助力网站发展。

站大爷

43 5 5

技术内容小助手

|

2天前

|

人工智能 Cloud Native 数据管理

数据+AI融合趋势洞察暨阿里云OpenLake解决方案发布

Forrester是全球领先的市场研究与咨询机构，专注于新兴技术在各领域的应用。本文探讨如何加速现代数据管理，推动人工智能与客户业务的融合创新。面对数据标准缺乏、多云环境复杂性、新兴业务场景及过多数据平台等挑战，Forrester提出构建AI就绪的数据管理基石，通过互联智能框架、全局数据管理和DataOps、端到端数据管理能力、AI赋能的数据管理以及用例驱动的策略，帮助企业实现数据和AI的深度融合，提升业务价值并降低管理成本。

技术内容小助手

9 0 0

科技云报道

|

7天前

|

存储机器学习/深度学习人工智能

科技云报到：人工智能时代“三大件”：生成式AI、数据、云服务

科技云报到：人工智能时代“三大件”：生成式AI、数据、云服务

科技云报道

30 0 0

ZOMI酱

|

2月前

|

存储人工智能编译器

【AI系统】昇腾数据布局转换

华为昇腾NPU采用独特的NC1HWC0五维数据格式，旨在优化AI处理器的矩阵乘法运算和访存效率。此格式通过将C维度分割为C1份C0，适应达芬奇架构的高效计算需求，支持FP16和INT8数据类型。此外，昇腾还引入了NZ分形格式，进一步提升数据搬运和矩阵计算效率。AI编译器通过智能布局转换，确保在不同硬件上达到最优性能。

ZOMI酱

53 3 4

站大爷

|

14天前

|

缓存人工智能负载均衡

AI革新迭代：如何利用代理IP提升智能系统性能

在人工智能快速发展的背景下，智能系统的性能优化至关重要。本文详细介绍了如何利用代理IP提升智能系统性能，涵盖数据加速与缓存、负载均衡、突破地域限制、数据传输优化和网络安全防护等方面。结合具体案例和代码，展示了代理IP在实际应用中的价值和优势。

站大爷

32 0 0

头条资讯

苹果A13芯片细节曝光，大幅提升AI性能

苹果A13芯片使用了台积电7nm极紫外光刻（EUV）工艺，有三个性能核心+四个能效核心。

头条资讯

782 0 0

弹性计算

云服务器ECS

热门文章

最新文章

对话 | ECS如何构筑企业上云的第一道安全防线

云服务器ECS安全组实践(三）Tips篇

ECS 支持 IPv6 啦，快来尝鲜吧~

从入门级到企业级：云服务器支持「共享型」升级「独享型」

云服务器ECS开启新的按周售卖模式，9折优惠中

Mac神兵利器（四）时间管理工具

防止误删的神器-ECS实例删除保护

ECS独享型实例，享受独占快感

当我们谈论企业级存储市场时，我们谈论（做）了什么

谁动了我的实例&磁盘 -- ECS主动运维历史事件查询

阿里云服务器目前活动中各实例规格适用场景汇总，选择指南参考

ECS控制台，AI助手与极简管控体验

阿里云弹性裸金属服务器是什么？产品规格及适用场景介绍

弹性计算第九代企业级ECS实例新品发布

阿里云GPU云服务器怎么样？产品优势、应用场景介绍与最新活动价格参考

并行文件存储在大模型训练中的探索与实践

阿里云服务器租用价格：包年包月收费标准与月付、1年、3年活动价格

阿里云服务器租用价格：包年包月收费标准与最新活动价格参考

对话 | ECS如何构筑企业上云的第一道安全防线

阿里云服务器经济型、通用算力型、计算型、通用型、内存型实例区别与选择指南

相关课程

更多

基于Gradio的AI应用搭建实践课

AI通识课-人工智能通识基础

使用Higress AI网关优化AI调用成本

基于通义灵码实现高效 AI 编码

通义灵码 AI 编码实战

阿里云DAS-您的专属AI专家，引领数据库自治驾驶

相关电子书

更多

FFA2024分论坛-Data+AI

云原生开源开发者沙龙丨AI 应用工程化专场

AI 编程技术周 | 通义灵码公开课第一期

相关实验场景

更多

体育赛事！零代码生成运动风格AI写真。

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

使用容器计算服务 ACS 算力快速搭建生成式 AI 会话应用

SAE 极速部署专属 AI 证件照神器

流水线运行出错排查难？AI帮你智能排查

以电商场景为例搭建AI语义搜索应用

下一篇

阿里云无影云电脑免费试用，最长可试用3个月