阿里云容器服务GPU监控2.0进阶篇1:剖析(Profiling)GPU使用情况必备知识

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 本系列相关文章:阿里云容器服务GPU监控2.0基础篇1:基本功能使用阿里云容器服务GPU监控2.0基础篇2:监控NVLINK带宽阿里云容器服务GPU监控2.0基础篇3:监控NVIDIA XID错误阿里云容器服务GPU监控2.0进阶篇1:剖析(Profiling)GPU使用情况必备知识阿里云容器服务GPU监控2.0进阶篇2:学会剖析(Profiling)GPU使用情况基于NVIDIA DCGM的GP

基于NVIDIA DCGM的GPU Profiling指的是对GPU上的CUDA Core、内存使用情况、NVLINK等GPU内部组件做更为详细的剖析。与nvprof和nsight等专注于对GPU应用做profiling的工具相比,它专注于设备级别的profiling且无需侵入应用,也不会影响正在运行的GPU应用的性能,对GPU做Profiling需要对CUDA和GPU架构有一定的了解,所以在介绍GPU Profiling之前,首先介绍一下CUDA和GPU架构的一些基本知识。

早期的GPU

大多数游戏中都遍布着到处移动的怪兽、飞机或坦克。并且在移动的过程中,有着大量的互动,例如互相撞击或者被玩家击中并杀死,这些操作都什么共同之处呢?(1)飞机在天上飞行 (2)坦克进行射击 (3)怪兽试图移动它的手臂和身体来抓住你。从数学角度看,所有这些对象都是高分辨的图形元素,它们由许多像素组成,对它们进行变换(如旋转它们)需要进行大量的浮点数运算。

早期的GPU主要应用在游戏的场景中,要知道GPU要做的事,参考下面的图片,图中的小狗用一组三角片表示,这种方法称为线框。创建小狗的三角线框模型将使我们可以设计一些小狗上窜下跳的动作。

下图描绘了一个三维对象平移所涉及的步骤,每个三角片包含两个属性:位置(由x,y,z三个顶点组成)和纹理。平移对象可以通过其坐标进行数学运算来实现。最后的纹理操作将纹理信息(存储在被称为纹理存储器的单独区域中)映射到平移后的对象坐标上。通过三维到二维的坐标变换可以将结果图形显示在普通的二维计算机显示器上。

GPGPU的诞生

早期的硬件厂商发现,如果能够将操作上述图片的几个步骤的专用硬件封装在GPU中,GPU作为专业游戏卡将有很大的优势:

  •   能够处理三角片的数据类型(上图方框I)  

  •   能够在三角片上只能大量的浮点数运算(上图方框II)  

  •   能够将纹理信息与三角片相关联,并将纹理存储在被称为纹理存储器的独立区域中(上图方框III)  

  •   能够将三角片坐标转换回图像坐标以便在计算机屏幕上显示(上图方框IV)  

从诞生第一天起,每个GPU都能够实现这些方框中的某些功能,方框I、方框III、方框IV的概念从未发生变化。但方框2的功能变得越来越快。

20世纪90年代后期一位物理系的研究生尝试编写一个包含大量浮点数计算的粒子模拟程序。他将大量的粒子模拟成游戏中的怪兽,然后将粒子运动类比为怪兽的运动,然后经过上图中方框I、方库II、方库III、方库IV的步骤得到自己想要的结果。

其他的人也根据这种思想把GPU拿来做其他事,例如:电路仿真,计算生物学等。

NVIDIA发现科学家其实并不需要方框I、方框III、方框IV。于是决定将方框II设计为通用计算单元将其开放给GPGPU程序员。2007年NVIDIA推出了他们的开发语言——统一设备架构(CUDA)。

CUDA编程介绍

CUDA编程结构

CUDA是一种通用的并行计算平台和编程模型,它利用NVIDIA GPU的并行计算引擎能更有效的解决复杂问题。通过使用CUDA,你可以像在CPU上那样,通过GPU来进行计算。

GPU和CPU是两个独立的处理器,他们通过PCI-Express总线连接,由于GPU没有总线控制权,它的所有任务都得需要CPU指定,所以GPU又被称为协处理器。在进行CUDA编程,既要编写CPU运行的代码逻辑,同时也需要编写GPU运行的代码逻辑,一个CUDA程序包含如下两部分:

  •   主机代码:运行在CPU上的代码  

  •   设备代码:运行在GPU上的代码  

NVIDIA的CUDA nvcc编译器在编译过程中会将源码文件中的主机代码和设备代码分离出来,主机代码是标准的C代码,通过C编译器编译;而设备代码需要nvcc进行编译。

一个典型的CUDA编程结构包括5个主要步骤:

  •   分配GPU内存  

  •   从CPU内存中拷贝数据到GPU内存中  

  •   调用CUDA核函数(GPU上运行的函数,由用户编写)完成程序指定的运算  

  •   将数据从GPU拷回CPU内存  

  •   释放GPU内存空间  

下面这段代码是GPU版的hello world,内容比较简单,与普通的C语言代码极其相似:

#include 

// 核函数:运行在GPU上的函数
__global__ void hellWorld(void) {
	printf("Hello World From GPU.\n");
}

int main(void) {
	printf("Hello World From CPU.\n");
	printf("----------------------\n");
	hellWorld <<<1,10>>> (); // 核函数调用
	cudaDeviceReset();
	return 0;
}

从这段代码中,可以学习到:

  •   代码中__global__修饰符是告诉编译器helloWorld这个函数将会从CPU调用,然后在GPU上运行。  

  •   在GPU上运行的函数,我们称为核函数(kernel function),上面的代码中helloWorld函数就是一个核函数。  

  •   核函数调用与普通函数有一点区别,在上面的代码中可以看到,“hellWorld <<<1,10>>> ()”代表调用了核函数,它与普通函数调用相比,在函数名称和后面的括号之间多了一个“<<<1,10>>>”,这个代表了什么意思呢?—— 在GPU上以1个线程块运行该函数,且这个线程块有10个线程线程块线程的概念接下来将会介绍)。效果就是helloWorld函数在GPU执行了10次,打印了10次“Hello World From GPU.”,如果变成了“<<<2,100>>>”,那么代表有2个线程块,每个线程块100个线程,helloWorld函数将在GPU运行200次。  

GPU版的hello world运行结果如下:

Hello World From CPU.
----------------------
Hello World From GPU.
Hello World From GPU.
Hello World From GPU.
Hello World From GPU.
Hello World From GPU.
Hello World From GPU.
Hello World From GPU.
Hello World From GPU.
Hello World From GPU.
Hello World From GPU.

可以看到helloWorld函数被运行了10次。

线程和线程块

线程(Thread)

在GPU编程当中,为了区分GPU和CPU,如下两个概念需要注意:

  •   主机(Host):CPU及其内存(主机内存)  

  •   设备(Device):GPU及其内存(设备内存)  

主机上的线程指的是CPU线程,而马上要提到的线程和线程块指的是在GPU上运行核函数而启动的线程,以上面的GPU版的hello world为例,helloWorld.cu源代码文件,使用nvcc编译,假设令编译后的二进制文件为helloWorldFromGPU:

# nvcc -o helloWorldFromGPU helloWorld.cu

然后运行helloWorldFromGPU:

# ./helloWorldFromGPU

此时,helloWorldFromGPU是一个CPU进程(或线程),而它会调用核函数helloWorld,并告诉GPU启动10个线程运行该核函数,打印10次“Hello World From GPU”,从这个例子中应该可以理解CPU线程和GPU线程的区别。

线程块(Thread Block)

我们知道,GPU天然支持并行,CPU在告诉GPU运行什么函数时(调用核函数),需要指明要用多少个线程运行该核函数,而GPU为了便于管理这些线程,引入一个叫线程块的概念。线程块是一个逻辑概念,指的是一组线程,为了理解概念,还是以上面的GPU版的hello world为例,如果需要在GPU上打印200次“Hello World From GPU”,你可以通过任何方式组织线程块,只要总线程数满足200即可,比如下面几个例子:

  •   用1个线程块完成,这个线程块包含200个线程  

  •   用2个线程块完成,这个线程块包含100个线程  

  •   用200个线程块完成,每个线程块包含1个线程  

但是需要注意的是,不同的线程块组织方式,GPU运行性能有天壤之别(后面会介绍原因),CUDA编程人员对CUDA程序调优,大多数时候都是在解决一个问题—— 对于需要线程数一定的核函数,每个线程块塞多少个线程,才能让核函数运行时间最短?

线程束(Thread Warp

我们知道,CPU线程的最小执行单位是1,即一个CPU一次最小可以执行1个线程;但GPU不同,GPU线程最小执行单位是32,且执行的线程数是32的倍数。也就是说,GPU要么不运行线程,如果要运行线程,那么一次至少运行32个线程,不存在一次运行1个线程的说法。在CUDA编程中,把32个线程称为一个线程束(warp)。

线程块、线程束、线程的关系

为了便于理解线程块、线程束和线程的关系,还是以上面的hello world程序为例,假设要打印1000次“Hello World From GPU”,那么:

  •   如果线程块数设置为1,那么每个线程块有1000个线程,每个线程块有1000 / 32 = 32(向上取整)个线程束  

  •   如果线程块数设置为1000,那么每个线程块有1个线程,每个线程块有1 / 32 = 1(向上取整)个线程束  

下面这幅图显示了线程块、线程束和线程的关系。

最后,总结一下:

  • 核函数:GPU代码是为每个线程编写的,GPU的核函数就是每个线程执行的代码。从这个意义上讲,线程可以被视为任务的组成单位。  

  • 线程束:由于在任何时刻执行的线程数都不少于32个(一个线程束),线程束可以被认为是代码的执行单位,所以GPU以线程束为单位执行程序。  

  • 线程块:在很多情况下,以线程束为执行单位对GPU来说太小。因此,我们以线程块为单位启动核函数。一个线程块可以被认为是代码的启动单位。所以程序员以线程块为单位启动核函数。  

GPU架构

接下来将以NVIDIA V100为例介绍GPU内部组件,A100与V100架构差不多,可以参考V100理解。

架构总览

下图是V100架构图,在V100中有:

  •   千兆线程引擎(Giga Thread Engine),用于调度线程块  

  •   6个GPC(GPU Processing Cluster)组成(下图中的6个大框)  

  •   每个GPC包含7个TPC(Texture Processing Cluster)  

  •   每个TPC包含2个SM(Streaming Multiprocessor),整张卡有84个SM,SM将会是重点介绍对象  

  •   L2 Cache供所有SM使用  

  •   4个HBM2,HBM2即全局内存(Global Memory),也就是平常我们使用nvidia-smi看到的总的显存大小就是这4个HBM2大小总和  

  •   有8个内存控制器(Memory Controller),每2个内存控制器负责一个HBM2  

线程块调度

前面说过,V100中存在千兆线程引擎GTE(Giga Thread Engine)和84个SM(Streaming Multiprocessor),V100使用的Compute Capability版本为7.0(Compute Capability将会在后面介绍),而Compute Capability 7.0定义每个SM最大容纳的线程块数为32。我们仍然以前面的hello world程序为例,假设需要打印50000次的“Hello World From GPU”,并且打算用200个线程块来容纳这50000个线程,那么每个线程块容纳的线程数为50000 / 200 = 250,假设现在千兆线程引擎GTE接收到了这200个线程块,它接下来的工作就是依靠某种调度算法把这200个线程块调度到SM上。这里需要明确一点的是一个线程块只会被调度到一个SM上,并且只会在一个SM上运行

现在来模拟一下GTE怎么调度线程块,GTE一次只能调度一个线程块,它会向所有的SM询问:“谁能够接收这个线程块?”,假设现在84个SM都能够接收,它们可能都会回答:“我能够接收”。然后GTE可能依靠某种算法,选择其中一个SM,然后将该线程块调度到这个SM上。这里我们也不必深挖它使用哪种调度算法,假设它用的是最简单的轮询法,那么200个线程块的前84个块分配方案为:Block0 -> SM0,  Block1 -> SM1,......,Block83 -> SM83。后面的线程块也按照这样分配:Block84 -> SM0,Block85 -> SM1,......,Block199 -> SM32。

前面提到过,每个SM能够容纳的最大的线程块为32,当GTE调度一个线程块时,如果每个SM当前都已容纳32线程块,此时所有SM都不能接收线程块了,GTE将等待,直到有SM能够接收该线程块。现在能够体会线程块容纳线程数是怎样影响性能了吧,这里只提一个方面:仍然以hello world程序为例,仍然需要打印50000次的“Hello World From GPU”,且用50000个线程块来容纳这些线程,那么每个线程块里面有1个线程。此时,因为每个SM只能容纳32个线程块,84个SM总共容纳 84 * 32 = 2688个线程块,在处理前2688个线程块时,后面的 50000 - 2688=47312还在等待被调度,另外因为GPU一个SM上每次至少执行32个线程,而当前线程块里只有1个线程,也就是说执行的32个线程中,只有一个线程有用,其他跑空。可以想象,这种组织线程块方式是多么影响性能。

SM架构

前面在线程块调度时说过,每个线程块最终会被分配到一个SM上,并且在该SM上执行。为了了解SM执行过程,首先介绍一下SM内部结构,下图是V100的一个SM架构,分别介绍一下各个组件。

指令高速缓存(L1 Instruction Cache)

指令高速缓存,每当GTE为一个SM分配一个线程块时,它也会将该线程块的指令填充到该区域

子处理模块(Sub Processing Block)

V100的SM包含4个子处理模块(上图中的4个大框),前面知道V100的SM可以容纳32个线程块,可以理解为每个SM维护一个线程块池,每个子处理模块从池子中拿出一个线程块处理。

指令L0缓存(L0 Instruction Cache)

每个子处理模块(Sub Processing Block)的本地指令缓存,从指令高速缓存(L1 Instruction Cache)复制指令。

线程束调度器(Warp Scheduler)

每个子处理模块(Sub Processing Block)包含一个线程束调度器,前面我们提到过32个线程称为一个线程束,是执行的最小单位,假设现在一个线程块有200个线程,那么该线程块有200 / 32 = 7(向上取整)个线程束。我们用Warp0,Warp1,......,Warp6来表示这些线程束。下图是线程束调度器调度计划的示意图,有一点需要说明的是:线程束(Warp)调度并不是让一个线程束执行完所有指令后,再调度另一个线程束,而是多个线程束交叉着调度,这样做的原因在于,线程束执行的指令有可能会让线程处于阻塞状态(例如:该指令是请求GPU内存的数据,当请求发出后,它就会等待,直到它所需的数据准备完成后,该线程束才能执行下一条指令),此时线程束调度器应该调度其他的线程束继续执行。

需要注意的是,这些线程束只是被调度了,还没有被分发,它们必须等到有资源可使用时,才能被分发。

线程束分发单元(Dispatch Unit)

一旦线程束所需资源足够,分发单元会分发一个线程束,怎样理解这里的“资源足够”?举个例子:某个线程执行某段代码中有10个变量,那么执行这个线程需要10个寄存器,寄存器就是线程所需的资源。

请注意线程束是串行执行的,这是一个重要的概念。当一个线程束由于需要读取内存而等待很长的时间,那么该线程束的执行现场将会被保留,另一个线程束就开始执行,而不是说两个线程束同时执行,这是一个串行操作。

寄存器文件(Register File)

寄存器用来保存变量,与内存或其他存储元件相比,它的访问速度是最快的。在上图(SM架构图)中,寄存器后面有一个括号说明“(16384 x 32-bit)”,这个指的是每个寄存器有32位,总共有16384个寄存器,寄存器总大小为16384 * 32bit = 16384 * 4 Byte = 64K。

为了理解寄存器原理,以一个简单的核函数为例:

__global__ void testCUDA(void) {
  unsigned int A,B,C;
  int D,E,F;
  double H,G,K;
  ...... // 其他代码
}

在上面的核函数中定义了9个变量,编译器会将这些变量分配到寄存器中,考虑到每个寄存器是32位,double类型会消耗2个寄存器,unsigned int类型和int类型会消耗1个寄存器,前面提到过,核函数是一个线程要执行的代码内容,在这个核函数中,总共消耗 3 * 1 + 3 * 1 + 3 * 2 = 12个寄存器。考虑到在编译过程(或者其他情况下)需要使用一些临时寄存器,我们给每个线程多估计3个寄存器,也就是说每个线程使用15寄存器。那么一个线程束需要寄存器为32 * 15 = 480个。

CUDA核心(CUDA Core)

CUDA核心是一个统称,它包括:FP64核心、INT核心、FP32核心、Tensor核心等。我们可以称一个FP32核心(其他核心也一样)是一个CUDA核心。

分别介绍一下这些Core:

  •   FP64 Core:双精度浮点数计算单元,一个子处理模块有8个FP64 Core  

  •   FP32 Core:单精度浮点数计算单元,一个子处理模块有16个FP32 Core  

  •   INT Core:整型计算单元,一个子处理模块有16个INT Core  

  •   Tensor Core:张量计算(矩阵计算)单元,一个子处理模块有2个Tensor Core  

注意:有时候,也把这些Core称为Pipe,比如FP32 Core称为FP32 Pipe。

现在来讨论另外一个问题:我们知道在每个子处理模块(Sub Processing Block)上是以线程束为单位执行的,那么线程束中的32个线程在执行某一条指令时(比如:执行单精度浮点数计算),怎样处理这些线程和这些Core的关系?总共有32个线程,但是FP32 Core只有16个,怎么运行?

首先,需要明确的是,每个线程必须要为其分配一个计算单元才能处理计算,分配的计算单元与执行的指令相关,比如当前指令执行的单精度浮点数计算,那么计算单元是FP32 Core,如果是整型计算,那么计算单元是INT Core。每个时钟周期每个子处理模块(Sub Processing Block)只能够提供16个FP32 Core,那么这条与单精度浮点数计算相关的指令需要2个时钟周期才能完成。这也是为什么在V100中官方文档(https://docs.nvidia.com/cuda/volta-tuning-guide/index.html#sm-scheduling)中介绍,与单精度浮点数有关的指令需要2个时钟周期完成,与双精度浮点数有关的指令需要4个时钟周期完成。Tensor Core的原理比较复杂,这里不做讨论。

读取/存储队列(LD/ST)

读取/存储队列用于将数据从内存(Global Memory)读取到核心,以及将核心中数据存储到内存中。任何需要加载或者存储内存的核函数都会将其请求在LD/ST队列中进行排队,并等待请求被满足,在等待期间,会被调度执行另一个线程束。

SFU(特殊功能单元)

用于执行超越函数(如:sin(),cos(),exp(),log()等),一般用于旋转和操纵3D对象。SFU一直是NVIDIA GPU的组成部分,如果不能有效的执行超越函数,GPU就失去了同时满足科学和游戏市场需求的能力,所以哪怕V100这种专注于计算的GPU卡,都保留了一个SFU。

L1缓存和共享内存(L1 Data Cache/Shared Memory)

L1缓存和共享内存(Shared Memory)共用这128KB空间,用户可以动态设置共享内存大小,比如:可以把共享内存设置为48KB,那么L1缓存就是128 - 48 = 80KB。需要注意的是L1缓存和共享内存由4个子处理模块共用,也就是说L1缓存和共享内存是SM级别的资源。

L1缓存是SM中硬件控制的高速缓存,程序员不能控制该缓存,从内存(Global Memory)读取的数据或存入内存(Global Memory)的数据必须首先加载到L1缓存中。

共享内存(Shared Memory)是软件控制的高速缓存,可以由程序员控制。对共享内存的申请是线程块级别的,什么意思呢?看一下下面这个核函数:

# define ROW 256 
# define COL 32

__global__ void sharedMemorySample(void) {
  __shared__ double Data[ROW][COL]; // 申请一块共享内存
  ...... // 省略其他代码

}

在上面这个核函数示例中,通过关键字“__shared__”定义了一块共享内存Data数组,由于对共享内存的申请是线程块级别的,那么这块共享内存是一个线程块里的所有线程共用的,而不是每个线程都申请一个Data数组大小的共享内存。

假设现在在main函数使用如下几种方式调用核函数sharedMemorySample,来计算一下所有线程所消耗的共享内存:

  •   sharedMemorySample <<<100, 100>>>():总共有100 * 100 个线程运行核函数sharedMemorySample,共有100个线程块,每个线程块100个线程,一个线程块总共消耗256 * 32 * sizeof(double)字节=256 * 32 * 8字节=64KB,那么总共需要申请的100 * 64KB = 6400KB共享内存,但是可以发现一个SM的和L1缓存和共享内存总共只有128KB,哪怕是L1缓存为0,最大也只能存放128/ 64 = 2个线程块  

  •   sharedMemorySample <<<10, 1000>>>():总共有10 * 1000个线程运行核函数sharedMemorySample,共有10个线程块,每个线程块100个线程,一个线程块总共消耗256 * 32 * sizeof(double)字节=256 * 32 * 8字节=64KB,那么总共需要申请的10 * 64KB = 640KB共享内存,一个SM的共享内存和L1缓存总共只有有128KB,哪怕是L1缓存为0,一次最大也只能存放128 / 64 = 2个线程块  

  •   从上面的两个例子可以看到,共享内存的申请对一个线程块拥有多少个线程是无感的  

计算能力(Compute Capability)

计算能力(Compute Capability,简称CC)也可以称为SM版本,它定义了使用该版本计算能力可以使用的指令集合,以及SM的物理限制。下面是

计算能力7.0版本所定义的一些物理限制,比如:

  •   每个SM一次最多驻留64个线程束  

  •   每个SM一次最多驻留2048个线程  

可以从这个链接(https://developer.nvidia.com/cuda-gpus#collapseOne)查询哪些GPU卡型使用哪种计算能力,例如V100使用了计算能力7.0版本,它就必须遵循计算能力7.0版本所定义的物理限制,也就是说V100的每个SM一次最多驻留64个线程束。

CUDA占用率计算

什么是CUDA占用率

CUDA占用率指的是执行某个核函数时,单个SM上驻留线程数与最大可驻留线程数的比值。以V100为例,其使用了计算能力7.0版本,那么一个SM极限情况下,理论最大可驻留线程数为2048,假设该SM在执行一个核函数时,容纳了1024个线程,那么占用率为1024 / 2048 = 0.5

计算CUDA占用率的意义

确定某个核函数的最佳线程/线程块的值。

约束资源

编写核函数时,我们非常希望在单个SM上驻留的线程数能够达到它的最大值,这样就提高了性能。但在实际情况下,总会因为“这样那样的因素”导致SM当前驻留线程数达不到最大值。这一节我们就来分析“这样那样的因素”都有哪些?

共享内存

第一个影响因素是共享内存,使用方式是由核函数的设计决定的,如果将核函数设计为需要大量的共享内存,它最终会成为决定可以载人SM的线程块数量的因素,因为最终共享内存会被用尽,共享内存是线程块级别的资源,看一下下面这个核函数:

# define ROW 32 
# define COL 32

__global__ void testCUDA(void) {
  __shared__ double Data[ROW][COL]; // 申请一块共享内存
  ...... // 省略其他代码

}

int main(void) {
  testCUDA<<<10,100>>>(); // 启动10个线程块,每个线程块有100个线程
  ...... // 省略其他代码
}

从这段代码中,可以看到核函数使用共享内存,每个线程块使用的共享内存大小为 32 * 32 * sizeof(double)字节=32 * 32 * 8B=8KB,假设该核函数在V100上运行,那么V100使用计算能力7.0版本,版本定义了每个SM最大能够使用共享内存为65536bytes(上面的CC 7.0图中可得),即65KB。因为一个线程块需要8KB,65KB的共享内存一次最多能容纳8个线程块。8个线程块总共有8 * 100=800个线程,由于SM最大能容纳2048个线程,单从共享内存这个限制因素看,它的占用率为800 / 2048 = 0.39。

寄存器个数

取决于编写的核函数使用的变量个数,使用太多的寄存器会导致两个问题:

  •   计算能力定义了每个线程最多能使用的寄存器数量,例如计算能力7.0规定了每个线程最多能使用的寄存器数量为255  

  •   在不超过块中寄存器总数的限制下(根据计算能力版本不同,例如计算能力7.0规定线程块最大使用寄存器数量为65536个),无法启动更多的线程块,例如:如果某个核函数需要200个寄存器,那么启动一个有256个线程的线程块时,需要的寄存器个数为:200 * 256 = 51200= 50K,在计算能力7.0版本中,SM最大可提供寄存器个数为65536=65K,也就是执行该核函数时,一个SM最多能容纳 65K / 50K = 1个线程块,由于该线程块总共有200个线程,那么单从寄存器个数这个限制看,它的占用率为 200 / 2048 = 0.09  

线程块包含线程的数量

决定了可以在SM启动多少个线程块,如果一个线程块中包含的线程数比较少,那么需要启动大量的块,因而容易达到“每个SM启动的最大线程块数量”的限制(在CC 7.0中,这个限制为32);相反,如果一个线程块包含的线程数过多,则线程块的粒度太大,可能浪费其中的线程空间。

每个SM中线程束的个数

实际上是最终的因素,它是唯一的重要限制,其他的限制因素都可以转化这个问题,以计算能力7.0版本为例,最大能够容纳的线程束个数为64,考虑到每个线程束有32个线程,“每个SM最多能够驻留64个线程束”可以转化为每个SM最多能够容纳线程数为32 * 64 = 2048个线程。

约束资源间的关系

上面介绍了影响SM能够驻留最大线程数的因素,这几种约束之间的关系可以用“木桶效应”描述,即:哪一种约束因素使SM驻留的线程数最少,那么以这种因素计算占用率。例如:某个核函数,从共享内存看,SM能够驻留10个线程束;从寄存器个数看,SM能够驻留5个线程束,那么最终以5个线程束来计算占用率。

CUDA占用率计算器

理解了CUDA占用率的几个影响因素后,来介绍一下怎样计算占用率,NVIDIA提供了一个计算占用率的工具:CUDA Occupancy Calculator,它是一个xls文件,下图就是这个工具的界面,如果要计算占用率,只需要:

  •   选择计算能力(Select Compute Capability),比如V100使用的是CC 7.0,那么就选择7.0版本  

  •   选择共享内存的大小(Select Shared Memory Size Config)  

  •   填写你的核函数调用时,每个线程块容纳多少个线程(Threads Per Block),下图中假设指定每个线程块128个线程  

  •   填写每个线程使用多少个寄存器(Registers Per Thread),下图中假设指定每个线程使用16个寄存器  

  •   填写每个线程块使用的共享内存的大小(User Shared Memory Per Block),下图中假设每个线程块使用8192bytes大小的共享内存  

而后就会自动计算出占用率,图中计算出的占用率为50%

时钟频率(Clock)

Clock相关值能够用来估算算力峰值。算力评估常用的单位是FLOPS,表示FLoat OPerations per Second(每秒中运行浮点数次数,Flops有时候也用作Flop的复数)。

对于FP32而言,FADD/FMUL都是一个指令一个flop,FFMA(融合乘法累加操作)一个指令同时算乘加所以是两个flop。所以一般NV的GPU的F32峰值算力计算方法为:

SM数 * 每SM的Core数 * 2 * 运行频率

以V100为例,有84个SM,每个SM的FP32 Core数为16 * 4 = 64,每个SM每cycle可以发射64个Int32或Float32指令,一个cycle能做64 * 2 Flops/FFMA = 128 Flops,V100的Boost Clock是1530MHz(其Base Clock是1312MHz),相当于每个cycle是1/1530M秒,每个FP32 Core每秒可以发射1530M条指令,整个GPU就是

84 * 64 * 2 * 1530M(Flops) =   84 * 64 * 2 * 1530 / 1024 / 1024 = 15.68TFlops

这也就是在V100的白皮书中Peak FP32 TFLOPS的值为15.7的由来:

总结

本篇文章介绍了GPU Profiling所需的CUDA和GPU架构方面的知识,理解这些知识将有助于认识和熟悉容器服务GPU监控2.0中所涉及到的一些指标。

参考文献

本篇文章参考以下的文献:

  •   《CUDA C编程权威指南》,英文名《Professional CUDA C Programming》  

  •   《基于CUDA的GPU并行程序开发指南》,英文名《GPU Parallel Program Development Using CUDA》  

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
4天前
|
供应链 安全 Cloud Native
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
阿里云飞天企业版容器系列产品获中国信息通信研究院【可信云·容器平台安全能力】先进级认证,这是飞天企业版容器产品获得《等保四级PaaS平台》和《 云原生安全配置基线规范V2.0》之后,本年度再一次获得行业权威认可,证明飞天企业版的容器解决方案具备符合行业标准的最高等级容器安全能力。
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
|
27天前
|
运维 Kubernetes Java
阿里云容器计算服务ACS ,更普惠易用、更柔性、更弹性的容器算力
ACS是阿里云容器服务团队推出的一款面向Serverless场景的子产品,基于K8s界面提供符合容器规范的CPU及GPU算力资源。ACS采用Serverless形态,用户无需关注底层节点及集群运维,按需申请使用,秒级按量付费。该服务旨在打造更普惠易用、更柔性、更弹性的新一代容器算力,简化企业上云门槛,加速业务创新。ACS支持多种业务场景,提供通用型、性能型及BestEffort算力质量,帮助客户更从容应对流量变化,降低综合成本。
|
7天前
|
机器学习/深度学习 人工智能 PyTorch
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
|
7天前
|
人工智能 运维 Kubernetes
阿里云容器服务AI助手2.0 - 新一代容器智能运维能力
2024年11月,阿里云容器服务团队进一步深度融合现有运维可观测体系,在场景上覆盖了K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在更好地为用户使用和运维K8S保驾护航。
|
13天前
|
人工智能 JSON Linux
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
|
27天前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
本文整理自2024云栖大会冯诗淳(花名:行疾)的演讲,介绍了阿里云容器服务团队在生产级可观测体系建设方面的实践。冯诗淳详细阐述了容器化架构带来的挑战及解决方案,强调了可观测性对于构建稳健运维体系的重要性。文中提到,阿里云作为亚洲唯一蝉联全球领导者的容器管理平台,其可观测能力在多项关键评测中表现优异,支持AI、容器网络、存储等多个场景的高级容器可观测能力。此外,还介绍了阿里云容器服务在多云管理、成本优化等方面的最新进展,以及即将推出的ACK AI助手2.0,旨在通过智能引擎和专家诊断经验,简化异常数据查找,缩短故障响应时间。
阿里云ACK容器服务生产级可观测体系建设实践
|
12天前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
4天前
|
监控 安全 Cloud Native
阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖
2024年12月24日,阿里云容器服务团队与云安全中心团队获得中国信息通信研究院「云原生安全标杆案例」奖。
|
27天前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
27天前
|
人工智能 Cloud Native 调度
阿里云容器服务在AI智算场景的创新与实践
本文源自张凯在2024云栖大会的演讲,介绍了阿里云容器服务在AI智算领域的创新与实践。从2018年推出首个开源GPU容器共享调度方案至今,阿里云容器服务不断推进云原生AI的发展,包括增强GPU可观测性、实现多集群跨地域统一调度、优化大模型推理引擎部署、提供灵活的弹性伸缩策略等,旨在为客户提供高效、低成本的云原生AI解决方案。

相关产品

  • 容器计算服务