【AI系统】Ascend C 语法扩展

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: Ascend C 是基于标准 C++ 扩展的编程语言,专为华为昇腾处理器设计。本文介绍了 Ascend C 的基础语法扩展、API(基础与高阶)、关键编程对象(数据存储、任务间通信与同步、资源管理及临时变量),以及如何利用这些特性高效开发。通过华为自研的毕昇编译器,Ascend C 实现了主机与设备侧的独立执行能力,支持不同地址空间的访问。API 包括计算、数据搬运、内存管理和任务同步等功能,旨在帮助开发者构建高性能的 AI 应用。

Ascend C 的本质构成其实是标准 C++加上一组扩展的语法和 API。本文首先对 Ascend C 的基础语法扩展进行简要介绍,随后讨论 Ascend C 的两种 API——基础 API 和高阶 API。

接下来针对 Ascend C 的几种关键编程对象——数据存储、任务间通信与同步,资源管理以及临时变量进行详细解读,为后续讲解 Ascend C 的编程范式打下理论基础。

语法扩展概述

Ascend C 采用华为自研的毕昇编译器,设备侧编程采用 C/C++语法扩展允许函数执行空间和地址空间作为合法的类型限定符,提供在主机(Host)侧和设备(Device)侧独立执行的能力,同时提供针对不同地址空间的访问能力。

函数执行限定符

函数执行空间限定符指示函数是在主机上执行还是在设备上执行,以及它是否可从主机或设备调用。主要有以下三种声明方式:

  • 首先是__global__执行空间限定符。它声明一个 kernel 函数(Ascend C 算子的入口函数,后文会详细介绍),具有如下性质:

    1. 在设备上执行;
    2. 只能被主机侧函数调用;
    3. __global__只是表示这是设备侧函数的入口,并不表示具体的设备类型;
    4. 一个__global__函数必须返回 void 类型,并且不能是 class 的成员函数;
    5. 主机侧调用__global__函数必须使用<<<>>>(内核调用符)异构调用语法;
    6. __global__的调用是异步的,意味着函数返回,并不表示 kernel 函数在设备侧已经执行完成,如果需要同步,须使用运行时提供的同步接口显式同步,如aclrtSynchronizeStream(…)
  • 第二类是__aicore__执行空间限定符。它声明的函数,具有如下属性。

    1. 在 AI Core 设备上执行;
    2. 只能被__global__函数,或者其他 AI Core 函数调用。
  • 第三类是__host__执行空间限定符。它声明的函数(通常不显示声明)具有如下属性。

    1. 只能在主机侧执行;
    2. 只能被主机侧函数调用;
    3. __global____host__不能一起使用。

典型使用函数执行空间限定符的示例:

//定义 aicore 函数
__aicore__ void bar() {}

// 定义核函数
__global__ __aicore__ void foo() { bar();}

//定义 Host 函数
int () {}

地址空间限定符

地址空间限定符可以在变量声明中使用,用于指定对象分配的区域。AI Core 具备多级独立片上存储,各个地址空间独立编址,具备各自的访存指令。如果对象的类型被地址空间名称限定,那么该对象将被分配在指定的地址空间中。同样地,对于指针,指向的类型可以通过地址空间进行限定,以指示所指向的对象所在的地址空间。

private 地址空间:private 地址空间是大多数变量的默认地址空间,特别是局部变量,代码中不显示标识所在局部地址空间类型。

__gm__地址空间__gm__地址空间限定符用来表示分配于设备侧全局内存的对象,全局内存对象可以声明为标量、用户自定义结构体的指针。

Ascend C API 概述

Ascend C 算子采用标准 C++ 语法和一组编程类库 API 进行编程,可以根据自己的需求选择合适的 API。Ascend C 编程类库 API 示意图如下图所示,Ascend C API 的操作数都是 Tensor 类型:GlobalTensor(外部数据存储空间)和 LocalTensor(核上内存空间);类库 API 分为高阶 API 和基础 API。

编程类库 API

基础 API

实现基础功能的 API,包括计算类、数据搬运、内存管理和任务同步等。使用基础 API 自由度更高,可以通过 API 组合实现自己的算子逻辑。基础 API 是对计算能力的表达。

  1. 基础 API 分类

    • 计算类 API:包括标量计算 API、向量计算 API、矩阵计算 API,分别实现调用标量计算单元、向量计算单元、矩阵计算单元执行计算的功能。

    • 数据搬运 API:计算 API 基于本地内存(Local Memory)数据进行计算,所以数据需要先从全局内存(Global Memory)搬运至本地内存,再使用计算接口完成计算,最后从本地内存搬出至全局内存。执行搬运过程的接口称之为数据搬运接口,比如 DataCopy 接口。

    • 内存管理 API:用于分配板上管理内存,比如 AllocTensor、FreeTensor 接口。这个 API 的出现是由于板上内存较小,通常无法存储完整数据,因此采用动态内存的方式进行内存管理,实现板上内存的复用。

    • 任务同步 API:完成任务间的通信和同步,比如 EnQue、DeQue 接口。不同的 API 指令间有可能存在依赖关系,不同的指令异步并行执行,为了保证不同指令队列间的指令按照正确的逻辑关系执行,需要向不同的组件发送同步指令。任务同步类 API 内部即完成这个发送同步指令的过程,开发者无需关注内部实现逻辑,使用简单的 API 接口即可完成。

  2. 基础 API 计算方式

    对于基础 API 中的计算 API,根据对数据操作方法的不同,分为下表所示的几种计算方式:

命名 说明
整个 Tensor 参与计算 整个 Tensor 参与计算:通过运算符重载的方式实现,支持+, -, *, /, | , &, <, >, <=, >=, ==, !=,实现计算的简化表达。例如:dst=src1+src2
Tensor 前 n 个数据计算 Tensor 前 n 个数据计算:针对源操作数的连续 n 个数据进行计算并连续写入目的操作数,解决一维 Tensor 的连续计算问题。例如:Add(dst, src1, src2, n);
Tensor 高维切分计算 功能灵活的计算 API,充分发挥硬件优势,支持对每个操作数的 Repeat times(迭代的次数)、 Block stride(单次迭代内不同 block 间地址步长)、Repeat stride(相邻迭代间相同 block 的地址步长)、Mask(用于控制参与运算的计算单元)的操作。

下图以向量加法计算为例,展示了不同级别向量计算类 API 的特点。从图中我们可以初步看出,Tensor 高维切分计算操作单元最小,可以针对不同步长实现最为细致的操作,针对 Tensor 高维切分计算更加细致的介绍会在附录 Ascend C API 中呈现。

Tensor 前 n 个数据计算可以实现一维的连续计算,可以指定 Tensor 的特定长度参与计算,Tensor 前 n 个数据计算也是一般开发过程中使用最为频繁的接口,兼具较强的功能性和易用性;整个 Tensor 参与计算是易用性最强的,使用难度最低的,针对整个 Tensor 进行计算,但是功能性较低。开发者可以根据自身水平和不同的需要去灵活地选择各种层级的接口。

编程类库 API

高阶 API

封装常用算法逻辑的 API,比如 Matmul、Softmax 等,可减少重复开发,提高开发者开发效率。使用高阶 API 可以快速的实现相对复杂的算法逻辑,高阶 API 是对于某种特定算法的表达。

例如使用高阶 API 完成 Matmul 算子时,需要创建一个矩阵乘法类进行运算,其中入参包含两个相乘的矩阵(一般称为 A 矩阵与 B 矩阵)信息、输出结果矩阵(一般称为 C 矩阵)信息、矩阵乘偏置(一般称为 Bias)信息,上述信息中包括了对应矩阵数据的内存逻辑位置、数据存储格式、数据类型、转置使能参数。

创建完这样的一个矩阵乘法类后,使用 Ascend C 高阶 API 可以直接完成对左右矩阵 A、B 和 Bias 的设置和矩阵乘法操作以及结果的输出,开发者不用再自主实现复杂的数据通路和运算操作。

数据存储

根据 Ascend C 对于 AI Core 的硬件抽象设计,AI Core 内部的存储统一用 Local Memory 来表示,AI Core 外部的存储统一用 Global Memory 来表示。

Ascend C 使用 GlobalTensor 作为 Global Memory 的数据基本操作单元,与之对应的,用 LocalTensor 作为 Local Lemory 的数据基本操作单元。数据的基本操作单元(Tensor,张量)是各种指令 API 直接处理的对象,也是数据的载体。本文具体介绍这两个关键的数据结构的原型定义和用法。

外部存储数据空间

外部存储数据空间(GlobalTensor)用来存放 AI Core 外部存储(Global Memory)的全局数据。

其原型定义如下:

template <typename T> class GlobalTensor {
    void SetGlobalBuffer(__gm__ T* buffer, uint32_t bufferSize); 
    const __gm__ T* GetPhyAddr();                                
    uint64_t GetSize();                                          
    GlobalTensor operator[](const uint64_t offset);              
}

在上边的程序中,第 2 行代码的作用是传入全局数据的指针,并手动设置一个 buffer size,初始化 GlobalTensor;第 3 行代码的作用是返回全局数据的地址类型 T 支持所有数据类型,但需要遵循使用此 GlobalTensor 的指令的数据类型支持情况;第 4 行代码的作用是返回 Tensor 中的 element 个数;第 5 行代码的作用是指定偏移返回一个 GlobalTensor,offset 单位为 element。

核内数据存储空间

核内数据存储空间(LocalTensor)用于存放 AI Core 中内部存储(Local Memory)的数据。其原型定义如下:

template <typename T> class LocalTensor {
    T GetValue(const uint32_t offset) const;
    template <typename T1> void SetValue(const uint32_t offset, const T1 value) const;
    LocalTensor operator[](const uint32_t offset) const;
    uint32_t GetSize() const;
    void SetUserTag(const TTagType tag);
    TTagType GetUserTag() const;
}

在上边的程序片段中,第 2 行代码的作用是获取 LocalTensor 中的某个值,返回 T 类型的立即数;第 3 行代码的作用是设置LocalTensor中的某个值,offset 单位为 element;第 4 行代码的作用是获取距原LocalTensor起始地址偏移量为 offset 的新LocalTensor,注意 offset 不能超过原有LocalTensor的 size 大小,offset 单位为 element;第 5 行代码的作用是获取当前LocalTensor尺寸大小。第 6 行代码的作用是让开发者自定义设置 Tag 信息;第 7 行代码的作用是获取 Tag 信息。

任务通信与同步

Ascend C 使用 TQue 队列完成任务之间的数据通信和同步,在 TQue 队列管理不同层级的物理内存时,用一种抽象的逻辑位置(TPosition)来表达各级别的存储,代替了片上物理存储的概念,开发者无需感知硬件架构。

TPosition 类型包括:VECIN、VECCALC、VECOUT、A1、A2、B1、B2、CO1、CO2。其中 VECIN、VECCALC、VECOUT 主要用于向量编程;A1、A2、B1、B2、CO1、CO2 用于矩阵编程。TPosition 的枚举值定义见下表。

TPosition 具体含义
GM 全局内存(Global Memory),对应 AI Core 的外部存储。
VECIN 用于向量计算,搬入数据的存放位置,在数据搬入矩阵计算单元时使用此位置
VECOUT 用于向量计算,搬出数据的存放位置,在将矩阵计算单元结果搬出时使用此位置
VECCALC 用于向量计算/矩阵计算,在计算需要临时变量时使用此位置
A1 用于矩阵计算,存放整块 A 矩阵,可类比 CPU 多级缓存中的二级缓存
B1 用于矩阵计算,存放整块 B 矩阵,可类比 CPU 多级缓存中的二级缓存
A2 用于矩阵计算,存放切分后的小块 A 矩阵,可类比 CPU 多级缓存中的一级缓存
B2 用于矩阵计算,存放切分后的小块 B 矩阵,可类比 CPU 多级缓存中的一级缓存
CO1 用于矩阵计算,存放小块结果 C 矩阵,可理解为 Cube Out
CO2 用于矩阵计算,存放整块结果 C 矩阵,可理解为 Cube Out

一个使用 TQue 数据结构的样例程序如下所示:

TQue<TPosition::VECIN, BUFFER_NUM> que;
LocalTensor<half> tensor1 = que.AllocTensor();
que.FreeTensor<half>(tensor1);
que.EnQue(tensor1);
LocalTensor<half> tensor1 = que.DeQue<half>();

在上边程序片段中呈现的内容只是 TQue 数据结构使用的一个样例,读者需要根据自己的需求在程序中合理的位置进行使用。其中第 1 行代码的作用是创建队列,VECIN 是 TPosition 枚举中的一员;BUFFER_NUM 参数是队列的深度,que 参数是自定义队列名称;第 2 行代码的作用是使用 TQue 的一个功能:

AllocTensor(),在片上分配空间给一个 LocalTensor,分配的默认大小为 que 在初始化时设置的一块的大小,也可以手动设置大小的值但是不能超过分配的大小;第 3 行代码的作用是释放 Tensor,使用 FreeTensor() 方法,需要与 AllocTensor() 成对使用;第 4 行代码的作用是将 LocalTensor 加入到指定队列中,从而利用队列来进行不同任务之间的数据同步与通信;第 5 行代码的作用是将 LocalTensor 从队列中取出,以能够进行后续的计算等操作。

资源管理

在 Ascend C 中,流水任务间数据传递使用到的内存统一由资源管理模块 TPipe 进行管理。TPipe 作为片上内存管理者,通过 InitBuffer 接口对外提供 TQue 内存初始化功能,开发者可以通过该接口为指定的 TQue 分配内存。

TQue 队列内存初始化完成后,需要使用内存时,通过调用 AllocTensor 来为 LocalTensor 分配内存,当创建的 LocalTensor 完成相关计算无需再使用时,再调用 FreeTensor 来回收 LocalTensor 的内存。内存管理示意图如下图所示:

内存管理

一个使用 TPipe 数据结构的样例展示如下所示:

TPipe pipe;
pipe.InitBuffer(que, num, len);

在上述程序中呈现的内容只是 Tbuf 数据结构使用的一个样例,读者需要根据自己的需求在程序中合理的位置进行使用。其中第 1 行代码的作用是实例化 TPipe 数据结构,名称为 pipe;第 2 行代码的作用是使用 TPipe 的一个功能:初始化片上内存(队列),其中参数 que 为指定的已经创建的队列名称;参数 num 为分配的内存块数,num=2 时开启 double buffer 优化;参数 len 为分配的一块内存大小(单位 Bytes)。

在这里简单介绍一下 double buffer 优化机制。执行于 AI Core 上的指令队列主要包括如下几类,即 Vector 指令队列(V)、Matrix 指令队列(M)和存储移动指令队列(MTE2、MTE3)。不同指令队列间的相互独立性和可并行执行特性,是 double buffer 优化机制的基石。double buffer 基于 MTE 指令队列与 Vector 指令队列的独立性和可并行性,通过将数据搬运与 Vector 计算并行执行以隐藏数据搬运时间并降低 Vector 指令的等待时间,最终提高 Vector 单元的利用效率。

临时变量

使用 Ascend C 编程的过程中,可能会用到一些临时变量,例如在 Compute 阶段开发者会使用到一些复杂的数据结构。这些临时变量占用的内存可以使用 TBuf 来管理,存储位置通过模板参数来设置,可以设置为不同的 TPosition 逻辑位置。

在使用 TBuf 时,建议将临时变量初始化成为算子类成员中的一个,不需要重复地申请与释放,能达到提升算子性能的效果。

TBuf 占用的存储空间通过 TPipe 进行管理,您可以通过 InitBuffer 接口为 TBuf 进行内存初始化操作,之后即可通过 Get 获取指定长度的 Tensor 参与计算。

使用 InitBuffer 为 TBuf 分配内存和为 TQue 分配内存有以下差异:

  • TBuf 分配的内存空间只能参与计算,无法执行 TQue 队列的入队出队操作。

  • 调用一次内存初始化接口,TPipe 只会为 TBuf 分配一块内存,TQue 队列可以通过参数设置申请多块内存。如果要使用多个临时变量,需要定义多个 TBuf 数据结构,对每个 Tbuf 数据结构分别调用 InitBuffer 接口进行内存初始化。

  • 使用 TBuf 时可以不需要重复进行申请释放内存操作。

一个使用 TBuf 数据结构的样例展示如下所示:

TBuf<TPosition::pos> calcBuf;
pipe.InitBuffer(calcBuf, len);
LocalTensor<half> temtensor1 = calcBuf.Get<half>();
LocalTensor<half> temtensor1 = calcBuf.Get<half>(128);

在上一段程序中呈现的内容只是 TBuf 数据结构使用的一个样例,读者需要根据自己的需求在程序中合理的位置进行使用。其中第 1 行代码的作用是进行临时变量声明,其中 pos 参数为队列逻辑位置 TPosition,可以为 VECIN、VECCALC、VECOUT、A1、A2、B1、B2、CO1、CO2。第 2 行代码的作用是进行临时变量初始化,pipe 为实例化的一个 TPipe 数据结构,同样使用 TPipe 数据结构中的 InitBuffer 操作对临时变量进行初始化,但只需要声明名称和长度 len 即可,长度的单位仍然是 Bytes。第 3、4 行代码的作用是分配临时的 LocalTensor,使用 TBuf 数据结构中的 Get() 方法进行临时 Tensor 的分配,若不引入入参则分配的空间大小为初始化时 len 的大小,单位为 Bytes,若引入入参,可以指定长度地分配临时 Tensor 的大小,但是长度不能超过 len。

如果您想了解更多AI知识,与AI专业人士交流,请立即访问昇腾社区官方网站https://www.hiascend.com/ 或者深入研读《AI系统:原理与架构》一书,这里汇聚了海量的AI学习资源和实践课程,为您的AI技术成长提供强劲动力。不仅如此,您还有机会投身于全国昇腾AI创新大赛和昇腾AI开发者创享日等盛事,发现AI世界的无限奥秘~

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
7月前
|
人工智能 弹性计算 PyTorch
【Hello AI】神行工具包(DeepGPU)-GPU计算服务增强工具集合
神行工具包(DeepGPU)是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合,旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力
129612 3
|
21天前
|
人工智能 开发框架 搜索推荐
今日 AI 开源|共 10 项| 复合 AI 模型,融合多个开源 AI 模型组合解决复杂推理问题
今日 AI 简报涵盖多项技术革新,包括多模态检索增强生成框架、高保真虚拟试穿、视频生成、生成式软件开发、上下文感知记忆管理等,展示了 AI 在多个领域的广泛应用和显著进步。
152 10
今日 AI 开源|共 10 项| 复合 AI 模型,融合多个开源 AI 模型组合解决复杂推理问题
|
6天前
|
存储 人工智能 并行计算
【AI系统】算子开发编程语言 Ascend C
本文详细介绍了昇腾算子开发编程语言 Ascend C,旨在帮助开发者高效完成算子开发与模型调优。Ascend C 原生支持 C/C++标准,通过多层接口抽象、自动并行计算等技术,简化开发流程,提高开发效率。文章还探讨了并行计算的基本原理及大模型并行加速策略,结合 Ascend C 的 SPMD 编程模型和流水线编程范式,为读者提供了深入理解并行计算和 AI 开发的重要工具和方法。
21 2
|
21天前
|
人工智能 搜索推荐 API
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
Perplexica 是一款开源的 AI 驱动搜索引擎,支持多种搜索模式和实时信息更新,适用于个人、学术和企业等不同场景。
105 6
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
|
6天前
|
存储 人工智能 并行计算
【AI系统】Ascend C 编程范式
本文详细探讨了Ascend C编程范式下的向量计算编程,重点介绍了自定义向量算子的开发流程,包括算子分析、核函数定义与封装、算子数据通路及算子类实现等内容。文章通过具体的`add_custom`算子开发实例,解析了向量算子的初始化、数据搬入、计算与数据搬出等核心步骤,以及数据切分策略,旨在帮助读者理解Ascend C的设计理念及其向量算子的编写思路。
19 4
|
6天前
|
机器学习/深度学习 人工智能 调度
【AI系统】CANN 算子类型
本文介绍了算子的基本概念及其在编程和数学中的作用,重点探讨了CANN算子在AI编程和神经网络中的应用,特别是华为CANN算子在AI CPU上的架构和开发要求。CANN是华为推出的异构计算架构,旨在优化AI处理器的计算效率,支持多种AI框架,涵盖AI Core和AI CPU算子,以适应不同类型的计算需求。文中还详细说明了AI CPU算子的开发流程和适用场景,为开发者提供了宝贵的指导。
22 2
|
6天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI 编译器后端优化
AI编译器采用多层架构,首先通过前端优化将不同框架的模型转化为统一的Graph IR并进行计算图级别的优化,如图算融合、内存优化等。接着,通过后端优化,将优化后的计算图转换为TensorIR,针对单个算子进行具体实现优化,包括循环优化、算子融合等,以适应不同的硬件架构,最终生成高效执行的机器代码。后端优化是提升算子性能的关键步骤,涉及复杂的优化策略和技术。
20 3
|
5天前
|
机器学习/深度学习 人工智能 API
【AI系统】推理引擎示例:AscendCL
AscendCL 是华为 Ascend 系列 AI 处理器的软件开发框架,提供强大的编程支持,简化 AI 应用的开发和优化。本文介绍了 AscendCL 的概念、优势、应用场景及基本开发流程,帮助开发者高效利用昇腾 AI 处理器的计算资源。
13 2
|
9天前
|
人工智能 并行计算 调度
【AI系统】CUDA 编程模式
本文介绍了英伟达GPU的CUDA编程模型及其SIMT执行模式,对比了SIMD和SIMT的特点,阐述了SIMT如何提高并行计算效率和编程灵活性。同时简要提及了AMD的GPU架构及编程模型,包括最新的MI300X和ROCm平台。
35 5
|
2月前
|
人工智能 JavaScript 数据可视化
Cursor 、v0 和 Bolt.new:当今 AI 编程工具的全面解析与对比
本文对 Cursor AI、v0 和 Bolt.new 三大 AI 编程工具进行了全面比较,分析其各自优势与局限性,帮助开发者在不同工作流中灵活应用。
334 8
Cursor 、v0 和 Bolt.new:当今 AI 编程工具的全面解析与对比