如何让Transformer在GPU上跑得更快?快手:需要GPU底层优化

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: Transformer 对计算和存储的高要求阻碍了其在 GPU 上的大规模部署。在本文中,来自快手异构计算团队的研究者分享了如何在 GPU 上实现基于 Transformer 架构的 AI 模型的极限加速,介绍了算子融合重构、混合精度量化、先进内存管理、Input Padding 移除以及 GEMM 配置等优化方法。

背景


从 Google 在 2017 年发表著名的「Attention is all you need」文章开始,Transformer 架构就开始攻占 AI 的多个领域:不仅成为自然语言处理(NLP)和语音等很多 AI 应用的默认核心架构,同时也成功跨界到计算机视觉方向,在超分辨率、图像识别和物体检测中取得 state-of-the-art 的性能。

然而,Transformer 架构对计算和存储有着较高要求,使得很多 AI 模型在 GPU 上的大规模部署受到限制。如何针对 Transformer 模型结构特点,结合 GPU 硬件特性充分释放 GPU 并行计算的能力,对于实现 Transformer 的极致加速至关重要。


Transformer 模型介绍


自注意力机制 Attention 提出后,引入 Attention 机制的 AI 模型在 NLP、语音识别等 Seq2Seq 序列任务上都有很明显的提升[1]。先前的 Seq2Seq 模型主要将 Attention 机制与循环神经网络 RNN 结合起来。之后 Google 在「Attention is all you need」这篇文章中提出 Transformer 模型,用全 Attention 的结构代替 LSTM,在翻译、问答和情感分析等 NLP 任务上达到更好的性能[2]。相比 LSTM,Transformer 对 Long Context 的建模能力更强。


作为 AI 模型研究的一个关键进展,Transformer 架构自被提出后迅速走红,已经成为众多 Seq2Seq 应用的不二之选,其主战场毫无疑问是 NLP 领域。从图 1 可以看出最近几年主流 NLP 模型的发展时间轴。从 ELMo 后,几乎所有的 NLP 模型都以 Transformer 为核心,比如 Google 的 BERT [3]、OpenAI 的 GPT-2 [4]和 Microsoft 的 Turing NLG [5]。


微信图片_20211205004400.jpg

图 1:基于 Transformer 架构的 NLP 模型规模


随着时间的推移,NLP 模型规模越来越大[4-6]。Turing NLG 模型拥有惊人的 170 亿个参数,单个 Nvidia 最新的内存高配版 GPU A100 仅能勉强装下。更让人惊叹的是,Open AI 最新提出的预训练模型 GPT-3 的参数更是达到了 1750 亿 [7],需要使用大规模 GPU 超算服务器进行训练及推理。


更庞大的模型意味着更强大的模型容量和能力,GPT-3 仅需少量参数无须微调即可在系列基准测试和特定领域的 NLP 任务(从语言翻译到生成新闻)中达到最新的 SOTA 结果。因其性能太强大,OpenAI 担心模型被恶意使用,对社会带来危害,故而选择不开源模型参数。


除了 NLP 之外,Transformer 也逐渐成为很多基于序列的语音应用的主流 AI 模型,在很多场景中已取代 RNN/LSTM,比如自动语音识别、语音合成等等,如图 2 所示。


微信图片_20211205004430.jpg

图 2:基于 Transformer 架构的应用


同时,最近两年,Transformer 开始跨界到计算机视觉(CV)领域,帮助解决物体检测、图像识别和增强等问题。基于深度学习的计算机视觉应用通常以卷积神经网络(CNN)为主要核心模块。卷积算子能有效地对像素的 Local Context 进行捕捉,如果需要扩大感受野,通常需要多级 Pooling、更大的 kernel 或特殊算子,比如 Dilated Convolution 等等。将 Transformer 引入或与 CNN 结合起来能增强神经网络 Context Modeling 的能力。


和大多数 Seq2Seq 模型一样,Transformer 的结构也是由 Encoder 和 Decoder 组成,Ecoder 负责提取 Contextlized 特征,Decoder 负责解码,如图 3 所示。其主要核心模块包含 Self Multi-head Attention、Encoder-Decoder Cross-attention 和 Feedforward,具体模型工作原理可参见[2]。


微信图片_20211205004457.jpg

图 3:Transformer 模型的架构

Attention 机制有很多不同的实现方法,Transformer 采用的是 Scaled dot-product attention,由矩阵相乘、Scale、Softmax 和 Concatenation 等算子组成。Encoder 一次计算能处理完整个 Batch 数据输入,而 Decoder 在很多 Seq2Seq 的应用中会对序列 Token 进行逐个处理直至序列结束。在这种情况下,Decoder 通常会成为整个运算的瓶颈。需要指出的是,很多基于 Transformer 的模型(如 GPT-2 等),其结构更偏向于仅含 Encoder 或 Decoder。而对于很多其他的应用——比如语音识别 Speech Transformer 和 Conformer 模型[12, 13],可能会在 Encoder 和 Decoder 整体结构基础之上还包含 Beam Search 或 Beam Sampling 等等。


Encoder 对整个 Batch 数据的处理方式能充分利用 GPU 强大的并行计算能力,而 Decoder 的逐个 Token 处理的特性(尤其是结合 Beam Search 等模块)使得其 GPU 优化需要额外注意,尤其是需要避免重复计算和存储。图 4 以语音识别 Speech Transformer 模型整个 Decoding 部分为例详细说明。


1638636336(1).png图 4:Beam Search Decoding (Decoder + Beam Search) 流程图


输入的 Batch 语音特征进入 Encoder,Encoder 逐层计算完后送到 Decoder。前面已经提到,Decoder 是按照文符 Token 逐步进行处理,除了需要 Encoder 输出,还需在前一步解码所输出的 Token,本质是一个自回归的过程。在这一阶段,首先需要判断这个 Token 是不是代表句子结束的特殊字符:如果是,解码结束输出解码文字;若不是,则送至 Decoder。


然后,模型通过 Masked Self-attention、Encoder- Decoder Cross Attention、Feedforward 模块以及 Softmax,输出所有可能字符的概率。Beam Search 会依据此概率用 Top-K 算法保留前 K 个最高概率的 Token,然后根据其目前保留的最优路径来更新 Token ID,再送到 Decoder 进行计算。整个 Decoding (即 Decoder 和 Beam Search) 的过程会输出对应于输入 Batch 序列的最大似然的句子,Beam Search 本质上是一个贪婪算法。


毫无疑问,上述 Decoding 过程会对更新的 Token ID 进行很多重复计算。如何对此过程进行优化是问题的关键所在。


在对 Transformer 模型结构深入理解的基础上,研究者结合 GPU 硬件架构特性,从计算和内存两个方面入手,对 Tranformer 各个关键模块开展了深入优化。此优化方案和技术也可以扩展至众多不同的基于 Transformer 架构的模型,快手希望借助这些 Transformer 家族模型的优化有效推进相关应用的大规模高效部署。


Transformer 家族模型


根据具体模型架构和应用的不同,研究者将 Transformer 家族的模型分为四大类(如图 5):


1638636420(1).png


(1) BERT 系列包含 RoBERTa、DistillBERT 等。毋庸置疑,基于双向 Transformer 的 BERT 模型在 NLP 领域有巨大的影响力,同时在实际服务部署中也大显身手,其加速有很大的实际意义。不同的应用(如问答、情感分类等)会在 Transformer 核心模块上额外加入不同的神经网络层,整体 BERT 的 GPU 加速核心仍然是 Transformer 的优化。


(2) 预训练生成模型,包含 Turing NLG 和 GPT 系列等。此类模型有能力在不依赖领域数据且不经过精调的情况下解决文本生成、对话及分析等很多问题,尤其是 BERT 所不擅长的文本生成。很多预训练模型(如 GPT 等)的架构类似于 Transformer Decoder 或 Encoder,因此在 Transformer 优化工作的基础之上扩展相对容易。


(3) Tansformer 扩展模型,包含 Conformer、TransformerXL 等。这些模型在 Transformer 基础架构上进行局部修改或延伸,使其能处理更长的输入序列(如 TransformerXL)、对更长的 Context 进行建模(如 Conformer)或跨界至其他非 Seq2Seq 领域(如 Detection Transformer 等)。Conformer 模型即是将 Self Attention 和 CNN 相结合,增强对局部和全部 Context 的处理能力,在语音识别任务中得到了更好的性能。


(4) 轻量化的 Transformer 改进模型(Xformer),包含 Reformer、Longformer 或 Performer 等。这类模型的研究着眼于降低复杂度,提升前向推理效能,是最近两年的一个热点。很多 Xformer 模型通过各种不同的方法(比如 Factorization、Low Rank、特殊 Pattern 或复用参数等)将时间复杂度由 O(n2) 降为 O(nlogn) 或 O(n) 。


Transformer 的 GPU 底层优化核心技术


根据 Transformer 的架构特点,快手的研究者在 Nvidia Faster Transformer 开源库 [14] 基础上针对具体的模型应用从算子、内存、精度等不同维度开展了大量研究和开发工作,同时也充分使用 GPU 多线程编程语言 CUDA 的很多加速技巧,主要核心优化技术如下:


1. 算子融合和重构


将多个神经网络层融合成一个 CUDA kernel 能很大程度减小计算量和内存 IO。通常,研究者会将尽可能多的层融合到一起,同时会对直接 CUDA 实现相对低效的算子进行无精度损失的重构,使其能高效利用 GPU 的计算单元或减小内存 IO 读写等。这些在计算图上所做的优化作用十分明显,对整体加速贡献很大。


图 6 给出了 Self-attention 和 Feedforward 两个核心模块在计算图优化后的 CUDA kernel 实现方案。他们将 QKV 三个 Tensor 的矩阵相乘重构后仅采用一个 Cublas Batch GEMM 实现,同时将前一层的 Bias 项或者 Transpose、Residual Add 和下一层的 Kernel 融合一起。举例而言,针对 Multi-head Attention 这个关键模块,他们分解成 5 个 sub-kernel,最后使用一个 CUDA 函数封装实现。


1638636501(1).png

图 6:Transformer 架构中 Self-attention 和 Feedforward 模块的 CUDA kernel 融合和重构,参见[14]


2. 混合精度量化


低精度量化是神经网络加速的另一常见技术。使用更低的量化精度有利于充分挖掘 GPU 硬件(如 Tensor Core)的计算能力,同时能降低内存的 Footprint。通常情况下,GPU 在 FP16 精度下的 TOPS (Tera Operation per Second)是 FP32 的 2 倍,而在 INT8 精度下是 FP32 的 4 倍。FP16 和 INT8 精度下所需参数存储和传输带宽分别为 FP32 的 2 倍和 4 倍。


另外,他们在 CUDA kernel 中使用了 FP16 Half2 数据类型。Half2 实际上是个类似于 SIMD 的操作:一次 Instruction 处理两个 Half 的数据,在内存 IO 成为瓶颈时效果不错。


图 7 给出了几个关键算子所使用的精度类型。GEMM 使用的是 FP16/INT8,其他则使用 FP16 Half2 类型。Beam Search 中的 Top-K 采用的是 FP32。因该 Kernel 精度对最后输出结果相对敏感,所以使用 FP32 确保精度无损。


微信图片_20211205004853.jpg

图 7:Transformer FP16 版本的几个关键 CUDA kernel 采用的量化精度


3. 内存管理优化    


 研究者在内存管理上进行了大量优化工作。图 8 是 Transformer Encoder、Decoder 及 Beam Search 的内存管理示意图。


1638636592(1).png


图 8:Transformer CUDA 实现的内存管理


他们对这三个模块分别预先分配单独的 GPU 内存。主要使用的内存优化方法包含:


1) 内存 Sharing: 针对 Encoder 批处理输入数据而无须缓存中间数据这一特点,研究者提出了 Ping-pong Buffer 的策略,将 Encoder 的内存分为两大块——Buffer A 和 Buffer B。第 I 层从 Buffer A 读取数据写入 Buffer B,第 I+1 层会从 Buffer B 读取第 I 层的输出,同时将输出写入 Buffer A。这样可避免每层单独开辟内存空间,能将 Encoder 占用的内存减小为原来的 1/N(N 是 Encoder 的层数)。此方法可极大地节省 Encoder 在运行过程中所占用的内存,使得支持更大的 Batch Size 的输入数据成为可能。


2) 内存 Caching: 在前文 Decoding 的工作机制描述中,研究者详细分析了 Transformer 所存在的重复计算问题。为了避免 Decoder 和 Beam Search 的重复计算开销,他们将 Decoder 的部分中间层输出在 GPU 内存上 Caching 起来,保留已经计算过的 Beam Search 路径。当需要更新路径的时候,不需要重复计算已经计算过的路径。3) 内存 Pre-alloation: 很多基于 Transformer 的应用需要支持动态的 Batch Size 和序列长度,为了避免重复申请删除 GPU 内存所带来的巨大开销,可根据服务所可能出现的最大 Batch Size 和序列长度对每个模块的内存进行预先分配。


4. 输入 Padding 移除


输入 Padding 是很多 NLP 和语音应用中的常见预处理步骤。在同一个 Batch 的数据内,不同序列长度可能会不一样,因为 Transformer 通常只能接收等长的序列数据,实际都会将短序列通过加空帧进行补齐。这些空帧虽参与 CUDA Kernel 运算,但很多时候对最终计算结果并没有影响,反而给 GPU 造成了额外的运算负担。因此,可以去掉这些空帧,并将其相对位置记录并保存至 Offset Mask。通过 Offset Mask 可以实现去空帧序列和原始序列的互相转换。相比之下,去空帧后的数据序列会缩短很多,所需计算量可大幅缩减,见图 9。


1638636665(1).png


需要注意的是,去掉空帧并不是对所有 CUDA Kernel 的运算都没有影响。也就是说,这种方法并不是通用的,其有效性取决于 Kernel 运算是否涉及相邻帧的数据。如果当前 Kernel 的计算只使用到帧内部数据,不涉及到相邻帧的数据,那么去除 Padding 对结果没有影响。


针对具体的模型,可以将模型的计算 Kernel 分为两类:(i) Kernel 运算完全基于帧内数据,去掉空帧对此 Kernel 的运算结果无影响;(ii) Kernel 运算涉及相邻帧数据,去掉空帧对此 Kernel 的运算结果有影响。可以在前一类 Kernel 前将 Padding 去掉,在后一类 Kernel 前可额外插入「Rebuild Padding」Kernel 重建原始序列,如图 10 所示。


1638636691(1).png


需要注意的是,「Remove Padding」和「Rebuild Padding」的 Kernel 会带来额外开销,整体设计需要考虑开销和收益的平衡。一般而言,输入 Batch 数据各序列的长度差距越大,去掉 Padding 带来的收益越高。


在 Transformer 架构中,因为所有 Attention 模块都会涉及相邻数据帧的计算,所以需要在 Attention 模块之前进行重建。而对于 Decoding,因为大部分 Kernel 都涉及到相邻帧计算,去掉 Padding 带来的收益不明显,因此此方法主要在 Encoding 端使用。


5. GEMM 配置优化


Transformer 架构中有很多线性层采用 Cublas GEMM 实现。Cublas GEMM 有很多不同的实现方案,在矩阵相乘速度和误差上各不相同,因此需要根据不同的矩阵相乘维度定位出最后的 GEMM 的配置参数,在误差可控的情况下获得最快运算速度。


图 11 列出了 Encoder 和 Decoder 所包含的矩阵相乘 GEMM 的信息。由于 GEMM 维度取决于输入数据的 Batch Size 和序列长度,实际应用中可以扫描出可能出现的不同 Batch Size 和序列长度所对应的所有 GEMM 矩阵相乘的配置参数,存入 Look-up Table,在实际 Serving 的时候依据输入数据的 Batch Size 和序列长度加载最优的配置参数。


1638636736.png

图 11:Transformer GEMM 配置的优化


总结


快手的研究者从底层优化出发,在充分分析 Transformer 的网络结构,算子特性以及 GPU 硬件特性的基础上,通过软硬件联合设计的思想对 Transformer 模型进行了深度优化,充分释放 GPU 本身强大的并行计算能力。他们高效地实现了多种优化技术,包含算子融合重构、混合精度量化、先进内存管理、独特的 Input Padding 移除方法以及 GEMM 配置。该 Transformer 优化方案已经成功推广至快手其他 Transformer 家族模型的语音或 NLP 相关 AI 应用,包含 Conformer、GPT-2、BERT 等等,极大地提高这些应用的 GPU 推理速度。


参考文献

[1] M. Luong et al, Effective Approaches to Attention-based Neural Machine Translation, arXiv:1508.04025v5 (2015).[2] A. Vaswani et al. Attention is all you need, Advances in neural information processing systems (2017).[3] J. Devlin et al. Bert: Pre-training of deep bidirectional transformers for language understanding, arXiv:1810.04805 (2018).[4] A. Radford et al. Language Models are Unsupervised Multitask Learners, 2019.[5] https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/[6] C. Raffe et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, arXiv:1910.10683v3 (2019).[7] T. Brown et al, Language Models are Few-Shot Learners, arXiv: 2005.14165v4 (2020).[8] N. Carion et al, End-to-End Object Detection with Transformers, arXiv: 2005.12872 (2020).[9] M. Chen et al, Generative Pretraining from Pixels, ICML (2020).[10] F. Yang et al, Learning Texture Transformer Network for Image Super-Resolution, CVPR (2020).[11] D. Zhang et al, Feature Pyramid Transformer, ECCV (2020).[12] Y. Zhao et al, The SpeechTransformer for Large-scale Mandarin Chinese Speech Recognition. ICASSP 2019.[13] A. Gulati et al, Conformer: Convolution-augmented Transformer for Speech Recognition, arXiv:2005.08100v1 (2020).[14] https://github.com/NVIDIA/DeepLearningExamples/tree/master/FasterTransformer

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
6月前
|
人工智能 缓存 调度
技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)
随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。
135948 6
|
6月前
|
并行计算 TensorFlow 调度
推荐场景GPU优化的探索与实践:CUDA Graph与多流并行的比较与分析
RTP 系统(即 Rank Service),是一个面向搜索和推荐的 ranking 需求,支持多种模型的在线 inference 服务,是阿里智能引擎团队沉淀多年的技术产品。今年,团队在推荐场景的GPU性能优化上又做了新尝试——在RTP上集成了Multi Stream,改变了TensorFlow的单流机制,让多流的执行并行,作为增加GPU并行度的另一种选择。本文详细介绍与比较了CUDA Graph与多流并行这两个方案,以及团队的实践成果与心得。
|
5月前
|
机器学习/深度学习 自然语言处理 异构计算
单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率
【6月更文挑战第11天】Transformer模型在算术任务上取得重大突破,通过引入Abacus Embeddings,一天内在100位数字加法上达到99%准确率。该嵌入方法帮助模型跟踪数字位置,提升处理长序列的能力。实验还显示,Abacus Embeddings可与其他嵌入方法结合,提升乘法任务性能。然而,模型在更长序列的扩展性和其他类型任务的效果仍有待探究,具体训练技术的影响也需要进一步研究。论文链接:https://arxiv.org/pdf/2405.17399
70 1
|
12月前
|
存储 人工智能 芯片
多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe
在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国AI计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型,并分析英伟达禁令对中国AI计算行业的影响。
1490 0
|
6月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案
阿里云弹性计算林立翔在【AIGC】话题下带来了题为《基于阿里云GPU的AIGC小规模训练优化方案》的主题演讲,围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。
|
6月前
|
存储 人工智能 Kubernetes
阿里云ACK助力GPU成本优化,实现灵活管理
摘要:本文将介绍如何在阿里云容器服务ACK中,利用cGPU技术,共享GPU算力,提高GPU利用率,降低TCO。
157 2
|
6月前
|
人工智能 弹性计算 并行计算
技术改变AI发展:CUDA Graph优化的底层原理分析(GPU底层技术系列一)
随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。CUDA是一种并行计算平台和编程模型,由Nvidia推出,可利用GPU的强大处理能力进行加速计算。
103987 1
|
6月前
|
存储 人工智能 缓存
探索AIGC未来:CPU源码优化、多GPU编程与中国算力瓶颈与发展
近年来,AIGC的技术取得了长足的进步,其中最为重要的技术之一是基于源代码的CPU调优,可以有效地提高人工智能模型的训练速度和效率,从而加快了人工智能的应用进程。同时,多GPU编程技术也在不断发展,大大提高人工智能模型的计算能力,更好地满足实际应用的需求。 本文将分析AIGC的最新进展,深入探讨以上话题,以及中国算力产业的瓶颈和趋势。
|
机器学习/深度学习 TensorFlow Go
美团视觉GPU推理服务部署架构优化实战
美团视觉GPU推理服务部署架构优化实战
177 0
|
机器学习/深度学习 编解码 自然语言处理
ViT系列 | 24小时用1张GPU训练一个Vision Transformer可还好?
ViT系列 | 24小时用1张GPU训练一个Vision Transformer可还好?
862 0