【AI系统】算子融合

简介: 算子融合是优化神经网络模型执行效率的关键技术之一,通过合并计算图中的算子,减少中间结果的实例化和不必要的输入扫描,提升模型的计算并行度和访存效率,有效解决内存墙和并行墙问题。TVM等框架通过支配树分析等高级算法实现高效的算子融合,显著提高模型的执行速度和资源利用率。

近年来,人们对优化神经网络模型的执行一直非常重视。算子融合是一种常见的提高神经网络模型执行效率的方法。这种融合的基本思想与优化编译器所做的传统循环融合相同,它们会带来:1)消除不必要的中间结果实例化,2)减少不必要的输入扫描;3)实现其他优化机会。下面让我们正式走进算子融合。

算子融合方式

在讨论算子融合之前,我们首先要知道什么是计算图,计算图是对算子执行过程形象的表示,假设 $C = \{ N, E, I, O\} \quad\quad\quad\quad\quad\quad$ 为一个计算的计算表达,那么可以有:

  • 计算图表示为由一个节点 N(Node),边集(Edge),输入边(Input),输出边(Output)组成的四元组
  • 计算图是一个有向联通无环图,其中的节点也被称为算子(Operator)
  • 算子必定有边相连,输入边,输出边不为空
  • 计算图中可以有重边(两个算子之间可以由两条边相连)

于是当我们遇到一个具体的算子实例时,我们可以在其对应的计算图上做等价的融合优化操作,这样的抽象使我们能够更加专心于逻辑上的处理而不用在意具体的细节。

为什么要算子融合呢?这样有什么好处呢? 融合算子出现主要解决模型训练过程中的读入数据量,同时,减少中间结果的写回操作,降低访存操作。它主要想解决我们遇到的内存墙和并行强墙问题:

  • 内存墙:主要是访存瓶颈引起。算子融合主要通过对计算图上存在数据依赖的“生产者-消费者”算子进行融合,从而提升中间 Tensor 数据的访存局部性,以此来解决内存墙问题。这种融合技术也统称为“Buffer 融合”。在很长一段时间,Buffer 融合一直是算子融合的主流技术。早期的 AI 框架,主要通过手工方式实现固定 Pattern 的 Buffer 融合。
  • 并行墙:主要是由于芯片多核增加与单算子多核并行度不匹配引起。可以将计算图中的算子节点进行并行编排,从而提升整体计算并行度。特别是对于网络中存在可并行的分支节点,这种方式可以获得较好的并行加速效果。

算子的融合方式非常多,我们首先可以观察几个简单的例子,不同的算子融合有着不同的算子开销,也有着不同的内存访问效率提升。

  1. 假设我们有如图所示左侧的计算图,他有 4 个算子 $A,B,C,D \quad\quad\quad\quad$,此时若我们将 $C,D$ 做(可行的话)融合,此时可以减少一次的 Kernel 开销,也减少了一次的中间数据缓存。

    融合方式 1

  2. 如图左侧部分的计算图,$B,C\quad\quad$ 算子是并行执行,但此时有两次访存,我们可以将 $A\quad$“复制”一份分别与 $B,C \quad\quad$ 做融合,如图右侧所示,此时我们 $A,B\quad\quad$ 与 $A,C\quad\quad$ 可以并发执行且只需要一次的访存。

    融合方式 2

  3. 如图左侧部分的计算图(和 2 一致),此时我们可以变换以下融合的方向,即横向融合,将 $B,C \quad\quad$ 融合后减少了一次 Kernel 调度,同时结果放在内存中,缓存效率更高。

    融合方式 3

  4. 如图左侧部分的计算图所示,我们也可以将 $A,B$ 融合,此时运算结果放在内存中,再给 C 进行运算,此时可以提高内存运算效率。

    融合方式 4

  5. 同样的,我们还可以将多个卷积核融合成一个卷积核,可以显著减少内存占用和访存的开销,从而提高卷积操作的速度。在执行如下图的卷积操作时,可以将两个卷积算子融合为一个算子,以增加计算复杂度为代价,降低访存次数与内存占用。

融合方式 5

通过示例代码模拟卷积核扩张与融合过程,将两个卷积算子融合成一个更大的卷积算子,具体如下所示:

import torch
import torch.nn.functional as F

# kernel fusion 示例
if __name__ == "__main__":
    torch.manual_seed(0)
    # 生成输入
    input = torch.randn(1, 3, 32, 32)

    # 生成 conv1 的权重和偏,out_channels=16, in_channels=3, kernel_height=3, kernel_width=3
    conv1_weight = torch.randn(16, 3, 3, 3)
    conv1_bias = torch.randn(16)
    conv1_output = F.conv2d(input, conv1_weight, bias=conv1_bias, stride=1, padding=1)
    print('conv1_output: ', conv1_output)

    # 生成 conv2 的权重和偏置,out_channels=16, in_channels=3, kernel_height=1, kernel_width=1
    conv2_weight = torch.randn(16, 3, 1, 1)
    conv2_bias = torch.randn(16)
    conv2_output = F.conv2d(input, conv2_weight, bias=conv2_bias, stride=1, padding=0)
    print('conv2_output: ', conv2_output)

    # kernel fusion
    # 将 conv2 的卷积核权重由(1, 1)扩展到(3, 3)
    weight_expanded = torch.zeros(16, 3, 3, 3)
    weight_expanded[:, :, 1, 1] = conv2_weight[:, :, 0, 0]
    # conv1 卷积核与 conv2 卷积核融合
    weight_fusion = torch.concatenate([conv1_weight, weight_expanded], dim=0)
    # conv1 偏置与 conv2 偏置融合
    bias_fusion = torch.concatenate([conv1_bias, conv2_bias], dim=0)
    # 1 次融合后的权重与偏置卷积,替代 conv1 与 conv2 两次卷积
    kernel_fusion_output = F.conv2d(input, weight_fusion, bias=bias_fusion, stride=1, padding=1)
    print(kernel_fusion_output)

最后我们给一个更具体的算子融合,读者可自行验证。

融合方式 example

如图所示,首先我们可以利用横向融合的思想,将一个 3×3×256 的卷积算子和一个 1×1×256 的卷积算子通过 Enlarge 方法将后者扩成 3×3×256 的卷积算子,然后融合成一个 3×3×512 的卷积算子;接着我们可以利用纵向融合的思想,将 Split,卷积,Add 融合成一个卷积算子,减少 Kernel 调度;最后,一般激活 ReLU 都可以和前一个计算步骤融合,于是最后融合得到一个 Cov2d_ReLU 算子。于是我们从一个比较复杂的计算图,最终得到了一个比较简洁的计算图,减少了 Kernel 调度,实现了“少就是多”。

总而言之,为了提高效率,我们可以通过消除不必要的中间结果实例化、 减少不必要的输入扫描、 发现其他优化机会等方法来指导我们实现算子融合。

算子融合案例

Batch-Normalization (BN)是一种让神经网络训练更快、更稳定的方法(faster and more stable)。它计算每个 mini-batch 的均值和方差,并将其拉回到均值为 0 方差为 1 的标准正态分布。BN 层通常在 nonlinear function 的前面/后面使用。

下面我们以 Conv-BN-ReLU 的算子融合作为例子。

BN 计算流程

BN 的计算公式

计算均值:

$$ \mu_B = \frac{1}{m} \sum_{i=1}^{m} x_i $$

计算方差:

$$ \sigma_B^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2 $$

归一化:

$$ \hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}} $$

其中,$\epsilon$ 是一个很小的正数,用于避免除以零。

线性变换:

$$ y_i = \gamma \hat{x}_i + \beta $$

其中,$\gamma \quad$ 和 $\beta \quad$ 是可学习的缩放参数和偏移参数。

在 BN 前向计算过程中,首先求输入数据的均值 $\mu \quad$ 与方差 $\sigma^{2}$,然后使用 $\mu \quad$、$\sigma^{2}$ 对每个输入数据进行归一化及缩放操作。其中,$\mu \quad$、$\sigma^{2}$ 依赖于输入数据;归一化及缩放计算的输入则依赖于输入数据、均值、方差以及两个超参数。下图为前向计算过程中 BN 的数据依赖关系:

BN 计算过程 01

其中,$\gamma \quad$ 和 $\beta \quad$ 是一个可学习的参数,在训练过程中,和其他层的权重参数一样,通过梯度下降进行学习。在训练过程中,为保持稳定,一般使用滑动平均法更新 $\mu \quad$ 与 $\sigma^{2}$,滑动平均就是在更新当前值时,保留一定比例上一时刻的值,以均值 $\mu \quad$ 为例,根据比例 $\theta\quad$(如,$\theta=0.99 \quad\quad\quad$)保存之前的均值,当前只更新 $1-\theta\quad\quad$ 倍的本 Batch 的均值,计算方法如下:

$$ \mu_{i}=\theta_{\mu_{i-1}}+(1-\theta)\mu_{i} $$

BN 反向计算过程中,首先求参数误差;然后使用参数误差 $\Delta\gamma\quad\quad$、$\Delta\beta\quad\quad$ 计算输入误差 $\Delta X\quad\quad$ 。参数误差导数依赖于输出结果误差 $\Delta Y\quad\quad$ 以及输入 $X\quad$;输入误差 $\Delta X\quad\quad$ 依赖于参数误差导数及输入 $X\quad$、输出误差 $\Delta Y\quad\quad$。反向过程包括求参数误差以及输入误差两部分,BN 反向计算的关键访存特征是两次使用输入特征 $X\quad$ 及输出误差$\Delta Y\quad\quad$,分别用于计算参数误差 $\Delta\gamma\quad\quad$、$\Delta\beta\quad\quad$ 及输入数据误差 $\Delta X\quad\quad$。

BN 计算过程 02

计算访存分析

网络模型训练时,需要保存每层前向计算时输出结果,用于反向计算过程参数误差、输入误差的计算。但是随着神经网络模型的加深,需要保存的中间参数逐渐增加,需要消耗较大的内存资源。由于加速器片上缓存容量十分有限,无法保存大量数据。因此需将中间结果及参数写出到加速器的主存中,并在反向计算时依次从主存读入使用。

前向计算过程中,每层的计算结果需写出主存,用于反向计算过程中计算输入误差;反向计算过程中,每层的结果误差也需写出到主存,原因是反向计算时 BN 层及卷积层都需要进行两次计算,分别求参数误差及输入数据误差,$X\quad$、$\Delta Y\quad\quad$ 加载两次来计算参数误差 $\Delta\gamma\quad\quad$、$\Delta\beta\quad\quad$ 及输入误差 $\Delta X\quad\quad$ 。ReLU 输入 $Y\quad$ 不需要保存,直接依据结果 $Z\quad$ 即可计算出其输入数据误差。

BN 计算过程 03

算子融合

前向过程中,BN 重构为两个子层:$BN_A \quad$ 和 $BN_B\quad$。

其中 $BN_A\quad$ 计算均值与方差,$BN_B\quad$ 完成归一化与缩放,分别融合于相邻卷积层及激活层。首先从主存读取输入 $X\quad$、均值 $\mu\quad$、方差 $\sigma^{2}$ 、参数 $\gamma\quad$、$\beta\quad$,计算 $BN_B$,完成归一化及缩放计算,将结果 Y 用于激活计算,输出 $Z\quad$ 用于卷积计算,卷积结果 $X^{'}$ 写出到主存之前,计算 $BN_A$,即求均值 $\mu^{'}$ 与方差 $\sigma^{2}$。

最终完成“归一化缩放->激活层->卷积层->计算卷积结果均值与方差”结构模块的前向计算过程只需要读取一次,并写回卷积计算结果 $X^{'}$ 及相关参数。

BN 计算过程 04

具体融合计算过程如下所示:

  • 卷积计算:

$$ {z} = {w} * {x} + {b} $$

  • BN 计算:

$$ y = \gamma\frac{ {\left( {z - mean} \right)}}{ {\sqrt {\operatorname{var} } }} + \beta $$

  • ReLU 计算:

    $$ y=max(0,y) $$

  • 融合卷积、BN 与 ReLU 的运算:

    将卷积计算公式带入到 BN 计算公式中,可得到下式:

    $$ y = \gamma\frac{ {\left( {(w*x+b) - mean} \right)}}{ {\sqrt {\operatorname{var} } }} + \beta $$

    展开后可得到:

    $$ y =\gamma\frac{w}{ {\sqrt {\operatorname{var}}}}*x+\gamma\frac{ {\left( {b - mean} \right)}}{ {\sqrt {\operatorname{var} } }} + \beta $$

    也即将卷积与 BN 融合后的新权重 $w'$ 与 $b'$,可表示为如下所示:

    $$ w' = \gamma\frac{w}{ {\sqrt {\operatorname{var} } }}\\ b' = \gamma\frac{ {\left( {b - mean} \right)}}{ {\sqrt {\operatorname{var} } }} + \beta $$

    最后,将卷积、BN 与 ReLU 融合,可得到如下表达式:

    $$ y=max(0,w'*x+b') $$

TVM 融合规则与算法

TVM是一个端到端的机器学习编译框架,它的目标是优化机器学习模型让其高效运行在不同的硬件平台上。它前端支持 TensorFlow、Pytorch、MXNet、ONNX 等几乎所有的主流框架。它支持多种后端(CUDA、ROCm、Vulkan、Metal、OpenCL、LLVM、C、WASM)及不同的设备平台(GPU、CPU、FPGA 及各种自定义 NPU)。

TVM 主要用于推理场景。在架构上,主要包括 Relay 和 TIR 两层。其通过 Relay 导入推理模型,随后进行融合优化,最后通过 TIR 生成融合算子。TVM 整体的算子融合策略是基于支配树来实现的,下面将介绍支配树等相关概念。

TVM 支配树

支配树与支配点:

  • 支配树:各个点的支配点构成的树
  • 支配点:所有能够到达当前节点的路径的公共祖先点( Least Common Ancestors,LCA)

具体而言,对于一张有向图(可以有环)我们规定一个起点 $r\quad$,从 $r\quad$ 点到图上另一个点 $w \quad$ 可能存在很多条路径(下面将 $r\quad$ 到 $w\quad$ 简写为 $r→w\quad\quad\quad$)。如果对于 $r→w\quad\quad\quad$ 的任意一条路径中都存在一个点 $p\quad$,那么我们称点 $p\quad$ 为 $w\quad$ 的支配点(也可以称作是 $r→w\quad\quad\quad$ 的必经点),注意 $r\quad$ 点不讨论支配点。

下面用 $idom[u]\quad\quad\quad$ 表示离点 $u\quad$ 最近的支配点。对于原图上除 $r\quad$ 外每一个点 $u\quad$,从 $idom[u]\quad\quad\quad$ 向 $u$ 建一条边,最后我们可以得到一个以 $r\quad$ 为根的树。这个树我们就叫它"支配树"。

如下图所示,到达 Node8 的路径有 Node3->4->7->8,Node3->5->7->8,Node3->6->7->8,因此 Node4,Node5,Node6,Node7 为 Node8 的支配点。

TVM 示意图

TVM 的算子融合策略就是检查每个 Node 到其支配点的 Node 是否符合融合条件,如果符合就对其进行融合。如上图,检查 Node4->Node7->Node8 是否能融合,若可以融合,则用新的算子替代原来路径上的算子。因此支配树作用如下:

  • 检查每个 Node 到其支配点的 Node 是否符合融合条件
  • 融合的基本规则是融合掉的 Node 节点不会对剩下的节点产生影响

支配树生成方式:

  • 根据 DAG 进行深度优先遍历,生成 DFS 树;注意,生成的 DFS 树是倒序的,也即最后一个节点为 0,然后依次递增
  • 根据 DFS 树及对应的边生成 DOM 树
  • 使用 Group 来描述多个 Node 是否能被融合;如果一个算子不能和任何其他算子融合,那么这个 group 就只有一个独立的算子;如果几个算子能够融合,则能融合的算子就构成了一个 group

TVM 算子融合流程

TVM 算子融合流程如下:

  • 通过 AST 转换为 Relay IR,遍历 Relay IR
  • 建立 DAG 用于后支配树分析
  • 应用算子融合算法,遍历每个 Node 到它的支配点的所有路径是否符合融合规则,完成融合后,遍历节点创新的 DAG 图

TVM 提供了 4 种融合规则,具体如下:

  • injective(one-to-one map):映射函数,比如加法,点乘等。
  • reduction:约简,如 sum/max/min,输入到输出具有降维性质,如 sum/max/min。
  • complex-out-fusable(can fuse element-wise map to output):计算复杂类型的融合,如 conv2d。
  • opaque(cannot be fused):无法被融合的算子,如 sort。

TVM 示意图

如果您想了解更多AI知识,与AI专业人士交流,请立即访问昇腾社区官方网站https://www.hiascend.com/ 或者深入研读《AI系统:原理与架构》一书,这里汇聚了海量的AI学习资源和实践课程,为您的AI技术成长提供强劲动力。不仅如此,您还有机会投身于全国昇腾AI创新大赛和昇腾AI开发者创享日等盛事,发现AI世界的无限奥秘~

目录
相关文章
|
2月前
|
人工智能 弹性计算 监控
《触手可及,函数计算玩转AI大模型解决方案评测》
本文介绍了函数计算在AI大模型部署中的应用,详细阐述了其原理、部署体验及优势。通过实践,验证了函数计算在弹性伸缩、部署便捷性和成本效益方面的显著优势。同时,提出了在高级特性、性能优化、安全性及高可用性等方面的改进建议,以提升方案在实际生产环境中的适用性和可靠性。
56 3
|
4天前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
25 4
【AI系统】计算图优化架构
|
21天前
|
人工智能 开发框架 搜索推荐
今日 AI 开源|共 10 项| 复合 AI 模型,融合多个开源 AI 模型组合解决复杂推理问题
今日 AI 简报涵盖多项技术革新,包括多模态检索增强生成框架、高保真虚拟试穿、视频生成、生成式软件开发、上下文感知记忆管理等,展示了 AI 在多个领域的广泛应用和显著进步。
155 10
今日 AI 开源|共 10 项| 复合 AI 模型,融合多个开源 AI 模型组合解决复杂推理问题
|
6天前
|
存储 人工智能 监控
【AI系统】推理系统架构
本文深入探讨了AI推理系统架构,特别是以NVIDIA Triton Inference Server为核心,涵盖推理、部署、服务化三大环节。Triton通过高性能、可扩展、多框架支持等特点,提供了一站式的模型服务解决方案。文章还介绍了模型预编排、推理引擎、返回与监控等功能,以及自定义Backend开发和模型生命周期管理的最佳实践,如金丝雀发布和回滚策略,旨在帮助构建高效、可靠的AI应用。
48 15
|
21小时前
|
机器学习/深度学习 存储 人工智能
《智领未来:C++ 与遗传算法在 AI 模型参数优化中的深度融合》
本文探讨了在C++中实现遗传算法并应用于人工智能模型参数优化的方法。遗传算法模拟自然界的进化过程,通过选择、交叉和变异等操作优化模型参数。文章详细介绍了C++实现遗传算法的关键步骤,包括定义个体与种群、初始化种群、适应度评估、选择、交叉、变异及迭代更新种群。此外,还讨论了C++实现遗传算法的优势与挑战,并展望了其在深度学习、强化学习、边缘计算等领域的应用前景。
27 9
|
6天前
|
机器学习/深度学习 人工智能 算法
【AI系统】推理系统介绍
推理系统是一种专门用于部署和执行神经网络模型预测任务的AI系统,类似于Web服务或移动端应用,但专注于AI模型的部署与运行。它支持将模型部署到云端或边缘端,处理用户请求。本文介绍了训练与推理的基本流程、两者差异、推理系统的优化目标及挑战,并对比了推理系统与推理引擎的流程结构,强调了设计推理系统时需考虑的优化目标,如灵活性、延迟、吞吐量、高效率、扩展性和可靠性。同时,文章还讨论了推理系统与推理引擎的区别,帮助读者深入了解推理引擎的核心技术。
30 5
|
12天前
|
人工智能 分布式计算 负载均衡
《构建 C++分布式计算框架:赋能人工智能模型并行训练》
在AI快速发展的背景下,模型训练的计算需求激增。基于C++构建的分布式计算框架,通过整合多节点、多GPU/CPU资源,优化数据通信、构建同步机制、实现负载均衡及增强可扩展性和容错性,显著提升训练效率,加速模型迭代,推动AI技术在医疗、交通等领域的广泛应用,开启智能化新时代。
|
23天前
|
消息中间件 人工智能 弹性计算
《触手可及,函数计算玩转 AI 大模型》解决方案评测
一文带你了解《触手可及,函数计算玩转 AI 大模型》解决方案的优与劣
64 14
|
15天前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】AI轻量化与并行策略
本文探讨了AI计算模式对芯片设计的重要性,重点介绍了轻量化网络模型和大模型分布式并行两大主题。轻量化模型旨在减少参数量和计算量,适合资源受限的设备;大模型分布式并行则针对高性能计算需求,通过数据并行、模型并行等技术提高训练效率。文中详细解析了轻量化设计的方法及分布式并行的实现机制,为AI芯片设计提供了理论依据和技术指导。
28 2
|
20天前
|
人工智能 弹性计算 数据可视化
解决方案|触手可及,函数计算玩转 AI 大模型 评测
解决方案|触手可及,函数计算玩转 AI 大模型 评测
26 1