【Hello AI】安装和使用AIACC-ACSpeed-分布式训练场景的通信优化库

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: AIACC-ACSpeed专注于分布式训练场景的通信优化库,通过模块化的解耦优化设计,实现了分布式训练在兼容性、适用性和性能加速等方面的升级。本文为您介绍安装和使用AIACC-ACSpeed v1.1.0的方法。

AIACC-ACSpeed专注于分布式训练场景的通信优化库,通过模块化的解耦优化设计,实现了分布式训练在兼容性、适用性和性能加速等方面的升级。本文为您介绍安装和使用AIACC-ACSpeed v1.1.0的方法。

前提条件

已创建阿里云GPU实例,且GPU实例需满足以下要求:

  • 操作系统为Alibaba Cloud Linux、CentOS 7.x、Ubuntu 16.04或以上版本。
  • 已安装NVIDIA Driver和CUDA 10.0或以上版本。

支持的版本列表

AIACC-ACSpeed(本文简称ACSpeed)v1.1.0支持PyTorch、Cuda、Python以及NGC镜像版本,版本对应关系如下所示。

类型

PyTorch Version

CUDA Version

Python Version

官方PyTorch版本

1.6.0

10.1

3.6/3.7/3.8

1.8.0

10.1/10.2/11.1

3.6/3.7/3.8/3.9

1.8.1

10.1/10.2/11.1

3.6/3.7/3.8/3.9

1.9.0

10.2/11.1

3.6/3.7/3.8/3.9

1.9.1

10.2/11.1

3.6/3.7/3.8/3.9

1.10.0

10.2/11.1/11.3

3.6/3.7/3.8/3.9

1.10.1

10.2/11.1/11.3

3.6/3.7/3.8/3.9

1.10.2

10.2/11.1/11.3

3.6/3.7/3.8/3.9

1.11.0

10.2/11.3

3.7/3.8/3.9/3.10

1.12.0

10.2/11.3/11.6

3.7/3.8/3.9/3.10

1.12.1

10.2/11.3/11.6

3.7/3.8/3.9/3.10

1.13.0

11.6

3.7/3.8/3.9/3.10

1.13.1

11.6

3.7/3.8/3.9/3.10

2.0.0

11.7

3.7/3.8/3.9/3.10

NGC镜像版本(nvcr.io/nvidia/pytorch:22.06-py3)

1.13.0a0

11.7

3.8

安装AIACC-ACSpeed

  1. 执行如下命令,下载ACSpeed v1.1.0。
wget https://ali-perseus-release.oss-cn-huhehaote.aliyuncs.com/ACSpeed/acspeed-1.1.0.tar.gz
  1. 执行如下命令,安装ACSpeed v1.1.0。
pip install acspeed-1.1.0.tar.gz

使用AIACC-ACSpeed

使用ACSpeed时,通过适配代码来快速启用ACSpeed即可。

您仅需在训练代码主函数对应的文件上增加一行import命令导入ACSpeed代码即可,一般可以选择在torch导入的地方。命令行示例如下所示:

import torch
import acspeed

好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关文章
|
16天前
|
存储 人工智能 PyTorch
基于PyTorch/XLA的高效分布式训练框架
基于PyTorch/XLA的高效分布式训练框架
26 2
|
1月前
|
人工智能 算法 PyTorch
TorchAcc:基于 TorchXLA 的分布式训练框架
阿里云研究员、阿里云人工智能平台 PAI 技术负责人--林伟在GTC 2024 大会 China AI Day 线上中文演讲专场上介绍了TorchAcc,这是一个基于 PyTorch/XLA 的大模型分布式训练框架。
|
10天前
|
机器学习/深度学习 运维 监控
TensorFlow分布式训练:加速深度学习模型训练
【4月更文挑战第17天】TensorFlow分布式训练加速深度学习模型训练,通过数据并行和模型并行利用多机器资源,减少训练时间。优化策略包括配置计算资源、优化数据划分和减少通信开销。实际应用需关注调试监控、系统稳定性和容错性,以应对分布式训练挑战。
|
1月前
|
存储 测试技术 C++
P2P网络下分布式文件共享场景的测试
P2P网络下分布式文件共享场景的测试
33 6
|
1月前
|
算法 数据处理 异构计算
CatBoost高级教程:分布式训练与大规模数据处理
CatBoost高级教程:分布式训练与大规模数据处理【2月更文挑战第15天】
244 14
|
1月前
|
人工智能 UED
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
【2月更文挑战第17天】“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
79 1
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
基于大模型思维链(Chain-of-Thought)技术的定制化思维链提示和定向刺激提示的心理咨询场景定向ai智能应用
基于大模型思维链(Chain-of-Thought)技术的定制化思维链提示和定向刺激提示的心理咨询场景定向ai智能应用
|
1月前
|
人工智能 搜索推荐 机器人
AI Agent涌向移动终端,手机智能体开启跨端跨应用业务连接新场景
AI Agent涌向移动终端,开启跨端跨应用业务连接新场景,手机智能体将成企业AIGC应用新标配。
44 0
|
2月前
|
算法 Python
探索LightGBM:并行化与分布式训练
探索LightGBM:并行化与分布式训练【2月更文挑战第4天】
232 1
|
2月前
|
SQL 存储 分布式计算
一文讲解分布式场景怎么Join
发现System R中对于Join操作的定义一般分为了两种,即嵌套循环、排序-合并联接。在原文中,更倾向使用排序-合并联接逻辑。
33 4