ATB是什么?

简介: ATB加速库专为华为Ascend AI处理器设计,针对Transformer模型的训练和推理进行了深度优化。它通过算法、硬件和软件层面的优化,大幅提升模型性能,降低能耗与成本。ATB支持PyTorch、MindSpore等多种框架,提供高效的基础算子及图算子技术,适用于各种应用场景。其软件架构主要包括基础Operation、Plugin机制和Graph Frame三部分,通过优化算子计算和数据传输,实现性能的显著提升。

1 ATB介绍

Ascend Transformer Boost加速库(下文简称为ATB加速库)是一款高效、可靠的加速库,基于华为Ascend AI处理器,专门为Transformer类模型的训练和推理而设计。

ATB加速库采用了一系列优化策略,包括算法优化、硬件优化和软件优化,能够显著提升Transformer模型的训练和推理速度,同时降低能耗和成本。具体来说,ATB加速库通过优化矩阵乘法等核心算子和注意力机制的实现方式,实现了对Transformer模型的高效加速。此外,ATB加速库还充分利用了Ascend AI处理器的硬件特性,如算力、存储带宽和内存带宽,通过硬件加速和数据重用等技术,进一步提升了性能和效率。ATB加速库目前提供了底层基础的高性能算子以及高效的算子组合技术(Graph图算子),同时上层支持对接多种模型框架如PyTorch、MindSpore、Paddle。

总而言之,ATB加速库中包含了各类Transformer类模型的高度优化模块,在各种应用场景中发挥重要作用,为模型的训练和推理提供了强有力的支持。

2 ATB的软件架构

image.png

ATB架构图
从上述架构看,ATB优化的核心内容是在算子计算方面,通过优化算子计算的方式,比如:增加算计算并行机会,优化内存排布等。涉及到3种算子,如下所述。

2.1 基础Operation(原生算子)

用户可以根据需求使用对应的算子完成计算功能。这类算子为一系列基础算子,提供了如矩阵乘、转置等功能。详细信息请参考atb/infer_op_params.h和atb/train_op_params.h。

2.2 插件(Plugin)机制(插件算子)

自定义插件算子(PluginOperation)是一种为用户实现特定功能提供的机制。如果一些功能通过单算子或图算子无法实现,用户可以通过开发自定义插件算子实现对应的功能。

2.3 Graph Frame(图算子)

提供图算子(Graph)机制,用户根据模型设计对应的图算子,使用加速库提供的原生算子和创建的自定义算子创建图算子,完成相应的计算。

graph也就是图,其实就是将多个算子组合成一个图的形式进行调用。那么组合成图的形式有什么好处呢?

1 算子调用

说明这个问题前,首先来了解下算子的下发过程。举例来说,如下图:
image.png

算子host->device下发过程
一个算子的下发,过程大概要经过host(CPU)-> Device(Ascend, GPU...)的过程。

在这个过程中,Host做的事情大概又可以做如下划分:

1、python侧。模型一般是用python编写,算子首先发起调用是从python侧的接口;

2、c++侧。python侧发起后,一般是通过pybind技术,路由到C++侧,这个过程一般由AI框架完成,如torch或、mindspore等。在c++侧做的事情,一般有算子的infer(mindspore),算子输入输出、workspace内存申请,调用Device侧的接口(驱动层)。

那么明显的,从host->devcie是有个调用过程,这个过程肯定是存在开销的。

那如何能减少这个开销呢?ATB中graph frame的实现,就是将算子组成图的形式,将其整体一次性下发到device上 ,那么host->device的开销是可以极大减少的。这样端到端下的性能也就提升了。

2 ATB 图算子构建

用户需要自行设计并定义图的结构,即图结构中节点(Node)的组合与依赖关系,包括节点对应的单算子、节点的输入Tensor与输出Tensor,并识别这些Tensor为图的输入Tensor、输出Tensor和中间Tensor。

图输入Tensor,为用户使用图算子时需要从外部输入的所有Tensor。

图输出Tensor,为用户使用图算子时不会再进行下一步运算操作的所有Tensor。

图中间Tensor,为图算子运算中产生的临时Tensor。例如同一图算子中有算子A和算子X,算子A的输出Tensor为算子X所用,且该tensor对于图外部模块不可见,则该Tensor为中间tensor。

如下图所示,该示例图算子由两个节点组成,这两个节点均为Elewise_Add算子。a、b、c为图算子的三个输入Tensor,output为图算子的输出Tensor,a_add_b_output为图算子的中间Tensor。其中,节点0的输入为a和b,输出为a_add_b_output,节点1的输入为a_add_b_output和c,输出为output。

用户需要自行设计并定义图的结构,即图结构中节点(Node)的组合与依赖关系,包括节点对应的单算子、节点的输入Tensor与输出Tensor,并识别这些Tensor为图的输入Tensor、输出Tensor和中间Tensor。图输入Tensor为用户使用图算子时需要从外部输入的所有Tensor。图输出Tensor为用户使用图算子时不会再进行下一步运算操作的所有Tensor。图中间Tensor为图算子运算中产生的临时Tensor。例如同一图算子中有算子A和算子X,算子A的输出Tensor为算子X所用,且该tensor对于图外部模块不可见,则该Tensor为中间tensor。

如下图所示,该示例图算子由两个节点组成,这两个节点均为Elewise_Add算子。a、b、c为图算子的三个输入Tensor,output为图算子的输出Tensor,a_add_b_output为图算子的中间Tensor。其中,节点0的输入为a和b,输出为a_add_b_output,节点1的输入为a_add_b_output和c,输出为output。
image.png

3. ATB的算子执行流程

如上所述,ATB存在三种算子,那么每种算子的设计思考是什么,与Ascend上,或者说CANN(CANN:CANN-昇腾社区 (hiascend.com))中的算子区别是什么。由于篇幅问题,请移驾到下述文章。
ATB三种算子的执行区别

本文主要参考:
ATB加速库

加速库使用指导

相关文章
|
2月前
|
人工智能 程序员 开发者
如何使用Ascend的ATB加速库?
ATB加速库专为Transformer模型优化设计,基于华为Ascend AI处理器,提升训练和推理效率。本文档详细介绍了如何实现一个ATB算子,涵盖基础Operation、插件机制和Graph Frame三种方式,从环境准备、算子创建、资源管理到最终执行,提供了完整的代码示例和步骤指南,帮助开发者快速掌握ATB算子的开发流程。
|
6月前
|
Docker 容器
Docker 启动失败 (code=exited, status=1/FAILURE)错误解决办法
Docker 启动失败 (code=exited, status=1/FAILURE)错误解决办法
1208 1
|
9月前
|
存储 运维 Shell
Ansible自动化运维工具安装和基本使用
Ansible 是一款无代理的IT自动化工具,通过SSH连接目标主机执行配置管理、应用部署和云端管理任务。它使用YAML编写的Playbook定义任务,核心组件包括Playbook、模块、主机清单、变量等。Ansible的优势在于易用、功能强大、无须在目标主机安装额外软件,并且开源。安装过程涉及配置网络源、yum安装和SSH密钥设置。通过定义主机清单和使用模块进行通信测试,确保连接成功。
282 2
Ansible自动化运维工具安装和基本使用
|
6月前
|
Java
线程池中线程抛了异常,该如何处理?
【8月更文挑战第27天】在Java多线程编程中,线程池(ThreadPool)是一种常用的并发处理工具,它能够有效地管理线程的生命周期,提高资源利用率,并简化并发编程的复杂性。然而,当线程池中的线程在执行任务时抛出异常,如果不妥善处理,这些异常可能会导致程序出现未预料的行为,甚至崩溃。因此,了解并掌握线程池异常处理机制至关重要。
603 0
|
9月前
|
机器学习/深度学习 人工智能
【LangChain系列】第九篇:LLM 应用评估简介及实践
【5月更文挑战第23天】本文探讨了如何评估复杂且精密的语言模型(LLMs)应用。通过创建QA应用程序,如使用GPT-3.5-Turbo模型,然后构建测试数据,包括手动创建和使用LLM生成示例。接着,通过手动评估、调试及LLM辅助评估来衡量性能。手动评估借助langchain.debug工具提供执行细节,而QAEvalChain则利用LLM的语义理解能力进行评分。这些方法有助于优化和提升LLM应用程序的准确性和效率。
626 8
|
8月前
|
自然语言处理 测试技术 人工智能
Meta等最新研究:多token预测,提升大模型推理效率
【6月更文挑战第2天】Meta等机构的研究人员提出了一种新的大型语言模型训练方法——多token预测,以提高样本效率和推理速度。该方法要求模型同时预测多个接下来的token,而非传统的单一token预测,从而减少局部模式依赖,提高模型的宏观决策能力。实验表明,这种方法在提升模型性能和推理速度方面效果显著,尤其在编程任务中表现出色。然而,多token预测可能需要更多计算资源,并不适用于所有NLP任务,其在自然语言处理领域的应用仍有待深入研究。论文链接:https://arxiv.org/abs/2404.19737
287 7
|
9月前
|
机器学习/深度学习 监控 PyTorch
PyTorch模型训练:优化器与损失函数的选择
【4月更文挑战第17天】PyTorch中的优化器(如SGD, Adam, RMSprop)和损失函数(如MSE Loss, Cross Entropy Loss)对模型训练效果有显著影响。优化器选择应基于任务复杂度和数据规模,SGD适合简单任务,而Adam和RMSprop适用于复杂情况。损失函数选择依赖于任务类型,MSE Loss用于回归,Cross Entropy Loss用于分类。实践中,应尝试不同组合,调整学习率,监控训练过程,并使用验证集优化模型。
|
机器学习/深度学习 人工智能 算法
一文搞懂模型量化算法基础
一文搞懂模型量化算法基础
4241 0
|
Java 测试技术 数据库
Java Spring Boot: 极简配置与快速开发的利器
Java Spring Boot: 极简配置与快速开发的利器
|
运维 物联网 开发工具
课时3:10分钟玩转阿里云物联网平台设备接入、管理、运维(一)
10分钟玩转阿里云物联网平台设备接入、管理、运维