【Hello AI】安装和使用AIACC-AGSpeed(优化PyTorch深度学习模型)

简介: AIACC-AGSpeed(简称AGSpeed)专注于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,可以实现无感的计算优化性能。本文为您介绍安装和使用AGSpeed的方法。

AIACC-AGSpeed(简称AGSpeed)专注于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,可以实现无感的计算优化性能。本文为您介绍安装和使用AGSpeed的方法。

前提条件

已创建阿里云GPU实例,且GPU实例需满足以下要求:

  • 操作系统为Alibaba Cloud Linux、CentOS 7.x或Ubuntu 16.04以上版本。
  • 已安装NVIDIA Driver和CUDA 10.0或以上版本。

支持的版本列表

AGSpeed支持Python、PyTorch以及CUDA版本,版本对应关系及下载地址如下所示。

安装AGSpeed

  1. 下载Wheel软件包。

根据您环境中的Python、PyTorch以及CUDA版本,在支持的版本列表中选择相应wheel包进行下载。更多信息,请参见支持的版本列表

  1. 执行如下命令,安装AGSpeed。

在环境中直接使用pip install命令安装即可。

pip install ${WHEEL_NAME} # 这里的${WHEEL_NAME}替换为您下载的具体wheel软件包名称

使用AGSpeed

建议您尽可能在一切准备工作就绪,即刚好准备执行Train Loop之前,使用agspeed.optimize()对模型进行封装。

例如,模型已经放置到对应的device,并使用DDP优化等操作前,使用agspeed.optimize()对模型进行封装。

  1. 执行如下命令,适配代码。
import agspeed                  # 导入AGSpeed,用于在PyTorch后端中注册AGSpeed的IR优化Pass和优化后的NvFuser后端。
model = agspeed.optimize(model) # 优化模型,用于模型自动调用计算图抓取的API,并将计算图交由AGSpeed Backend Autotuner优化。
  1. 如果您的模型使用的是PyTorch AMP混合精度训练,需要额外在autocast()上下文中增加cache_enabled=False参数,示例代码如下所示。

说明本步骤仅适用于模型使用的是PyTorch AMP混合精度训练场景,使用其他精度(例如FP32)训练场景,请跳过本步骤。

因为TorchDynamo在抓取计算图后,会使用torch.jit.trace进一步将该计算图转换为TorchScript IR,从而调用后端进行优化,在autocast()上下文中直接调用torch.jit.trace会引发冲突,所以需要关闭cache_enabled参数,即您还需要额外在autocast()上下文中增加cache_enabled=False。更多信息,请参见PyTorch commit 

from torch.cuda.amp.autocast_model import autocast
# ...
# 在autocast上下文参数中添加cache_enabled=False
with autocast(cache_enabled=False):
    loss = model(inputs)
scaler.scale(loss).backward()
scaler.step(optimizer)
# ...
  1. 如果您使用的是PyTorch 1.12.x版本,且待训练模型中包含SiLU激活函数,请使用LD_PRELOAD环境变量导入SiLU激活函数符号微分公式。

说明本步骤仅适用于环境为PyTorch 1.12.x版本且待训练模型中包含SiLU激活函数场景,其他场景请跳过本步骤。

PyTorch 1.12.x版本中,TorchScript后端不包含aten::silu的符号微分公式,从而导致aten::silu op不会被纳入可微分子图的范畴,也就无法被后端的NvFuser融合。由于PyTorch的底层实现机制不允许您动态添加符号微分公式,因此AGSpeed将SiLU的符号微分公式集成在另一个动态链接库中(即LD_PRELOAD),将aten::silu的符号微分公式补充到TorchScript后端。在启动训练前,建议您使用LD_PRELOAD环境变量导入SiLU激活函数符号微分公式。

  1. 执行以下命令,查看AGSpeed安装路径。
python -c "import agspeed; print(agspeed.__path__[0])"

返回页面显示如下,获取AGSpeed安装路径。

  1. 执行如下命令,确认上述路径下是否包含libsymbolic_expand.so文件。
ls -l ${your_agspeed_install_path} # 将${your_agspeed_install_path}替换为您机器上的AGSpeed安装路径。

返回页面显示如下,表示该路径下已包含libsymbolic_expand.so文件。

  1. 执行以下命令,导入LD_PRELOAD环境变量。
# 将${your_agspeed_install_path}替换为您机器上的AGSpeed安装路径。
export LD_PRELOAD=${your_agspeed_install_path}/libsymbolic_expand.so
# Start Training...

运行过程中显示如下,表示已将aten::silu的符号微分公式补充到TorchScript后端。

代码示例

在您的训练代码中适配AGSpeed的代码示例如下所示,本示例中,代码前的+号表示本代码行属于新增代码。

+ import agspeed
  # 定义dataloader
  dataloader = ...
  # 定义模型对象
  model = ResNet()
  # 设置模型device
  model.to(device)
  # 定义优化器
  optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
  # 设置DDP
  if distributed:
      model = DDP(model)
+ model = agspeed.optimize(model)
  ############################## Train Loop分为FP32和AMP两种情况演示 ##############################
    ############### FP32 ###############
    # 若是以默认的FP32精度进行训练,不需要修改TrainLoop
  for data, target in dataloader:
      loss = model(data)
      loss.backward()
      optimizer.step()
      optimizer.zero_grad()
    ############### FP32 ###############
    ############### AMP ###############
    # 若是以混合精度进行训练,需要在autocast上下文中增加cache_enabled=False
+ with autocast(cache_enabled=False):
      for data, target in dataloader:
        loss = model(data)
        scaler.scale(loss).backward()
        scaler.step(optimizer)
        optimizer.zero_grad()
        scaler.update()
    ############### AMP ###############
  ############################## 通过LD_PRELOAD增加SiLU符号微分公式 ##############################
 # 显示的路径为您机器上的AGSpeed安装路径
  python -c "import agspeed; print(agspeed.__path__[0])"
 # 将${your_agspeed_install_path}替换为您机器上的AGSpeed安装路径
+ export LD_PRELOAD=${your_agspeed_install_path}/libsymbolic_expand.so
 # 执行训练命令
 python train.py

Log示例

Log示例用于帮助您确认是否已成功启用了AGSpeed的加速功能。

  • AGSpeed导入成功Log

导入AGSpeed时会自动注册AGSpeed的TorchScript IR优化Pass和优化后的NvFuser后端,如果导入操作完成后,出现以下Log表示AGSpeed已成功导入,您可以放心执行下一步操作。

  • AGSpeed Autotuning Log

AGSpeed会在训练过程中的前几个步骤中进行Autotuning操作,自动选择性能最佳的后端,如果训练过程的Autotuning操作中,出现以下Log表示AGSpeed加速功能已成功启用。

好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关文章
|
13天前
|
存储 人工智能 算法
【AI系统】计算图的优化策略
本文深入探讨了计算图的优化策略,包括算子替换、数据类型转换、存储优化等,旨在提升模型性能和资源利用效率。特别介绍了Flash Attention算法,通过分块计算和重算策略优化Transformer模型的注意力机制,显著减少了内存访问次数,提升了计算效率。此外,文章还讨论了内存优化技术,如Inplace operation和Memory sharing,进一步减少内存消耗,提高计算性能。
74 34
【AI系统】计算图的优化策略
|
8天前
|
存储 人工智能 自然语言处理
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
ChatMCP 是一款基于模型上下文协议(MCP)的 AI 聊天客户端,支持多语言和自动化安装。它能够与多种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互,具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。
71 14
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型,支持多语言对话,具备高效、低成本的特点,适用于多种应用场景,如聊天机器人、客户服务自动化、语言翻译等。
62 13
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
|
10天前
|
人工智能 安全 PyTorch
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。
43 10
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
|
10天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
57 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
12天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
53 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
12天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
53 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
16天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
109 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
13天前
|
机器学习/深度学习 存储 人工智能
【AI系统】离线图优化技术
本文回顾了计算图优化的各个方面,包括基础优化、扩展优化和布局与内存优化,旨在提高计算效率。基础优化涵盖常量折叠、冗余节点消除、算子融合、算子替换和算子前移等技术。这些技术通过减少不必要的计算和内存访问,提高模型的执行效率。文章还探讨了AI框架和推理引擎在图优化中的应用差异,为深度学习模型的优化提供了全面的指导。
36 5
【AI系统】离线图优化技术
|
13天前
|
存储 人工智能 PyTorch
【AI系统】模型转换流程
本文详细介绍了AI模型在不同框架间的转换方法,包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件,而规范式转换则通过一个中间标准格式(如ONNX)作为桥梁,实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节,以及模型转换工具的概览,帮助用户解决训练环境与部署环境不匹配的问题。
32 5
【AI系统】模型转换流程

热门文章

最新文章

下一篇
DataWorks