GPGPU OpenCL/CUDA 高性能编程的10大注意事项

简介: 1.展开循环   如果提前知道了循环的次数,可以进行循环展开,这样省去了循环条件的比较次数。但是同时也不能使得kernel代码太大。   循环展开代码例子: 1 #include 2 using namespace std; 3 4 int main(){ 5 ...

1.展开循环

  如果提前知道了循环的次数,可以进行循环展开,这样省去了循环条件的比较次数。但是同时也不能使得kernel代码太大。

  循环展开代码例子:

 1 #include<iostream>
 2 using namespace std;
 3 
 4 int main(){
 5     int sum=0;
 6     for(int i=1;i<=100;i++){
 7         sum+=i;
 8     }
 9 
10     sum=0;
11     for(int i=1;i<=100;i=i+5){
12         sum+=i;
13         sum+=i+1;
14         sum+=i+2;
15         sum+=i+3;
16         sum+=i+4;
17     }
18     return 0;
19 }
View Code

2.避免处理非标准化数字

  OpenCL中非标准化数字,是指数值小于最小能表示的正常值。由于计算机的位数有限,表示数据的范围和精度都不可能是无限的。(具体可以查看IEEE 754标准,http://zh.wikipedia.org/zh-cn/IEEE_754)

  在OpenCL中使用非标准化数字,可能会出现“除0操作”,处理很耗时间。

  如果在kernel中“除0”操作影响不大的话,可以在编译选项中加入-cl-denorms-are-zero,如:

    clBuildProgram(program, 0, NULL, "-cl-denorms-are-zero", NULL, NULL);

3.通过编译器选项传输常量基本类型数据到kernel,而不是使用private memory

  如果程序中需要给kernel 传输常量基本类型数据,最好是使用编译器选项,比如宏定义。而不是,每个work-item都定义一个private memory变量。这样编译器在编译时,会直接进行变量替换,不会定义新的变量,节省空间。

  如下面代码所示(Dmacro.cpp):

1 #include<stdio.h>
2 int main()
3 {
4     int a=SIZE;
5     printf("a=%d, SIZE=%d\n",a,SIZE);
6     return 0;
7 }
View Code

  编译:

  g++ -DSIZE=128 -o A Dmacro.cpp

 4.如果共享不重要的话,保存一部分变量在private memory而不是local memory

   work-item访问private memory速度快于local memory,因此可以把一部分变量数据保存在private memory中。当然,当private memory容量满时,GPU硬件会自动将数据转存到local memory中。

5.访问local memory应避免bank conflicts

   local memory被组织为一个一个的只能被单独访问的bank,bank之间交叉存储数据,以便连续的32bit被保存在连续的bank中。如下图所示:

  (1)如果多个work-item访问连续的local memory数据,他们就能最大限度的实现并行读写。

  (2)如果多个work-item访问同一个bank中的数据,他们就必须顺序执行,严重降低数据读取的并行性。因此,要合理安排数据在local memory中的布局。

  (3)特殊情况,如果一个wave/warp中的线程同时读取一个local memory中的一个地址,这时将进行广播,不属于bank 冲突。

6.避免使用”%“操作

  "%"操作在GPU或者其他OpenCL设备上需要大量的处理时间,如果可能的话尽量避免使用模操作。

7.kernel中重用(Reuse) private memory,为同一变量定义不同的宏

   如果kernel中有两个或者以上的private variable在代码中使用(比如一个在代码段A,一个在代码段B中),但是他们可以被数值相同。

  也就是当一个变量用作不同的目的时,为了避免代码中的命名困惑,可以使用宏。在一个变量上定义不同的宏。

  如下面代码所示:

 1 #include<stdio.h>
 2 int main(){
 3     int i=4;
 4     #define EXP i
 5             printf("EXP=%d\n",EXP);
 6     
 7     #define COUNT i
 8             printf("COUNT=%d\n",COUNT);
 9     getchar();
10     return 0;
11 }
View Code

8.对于(a*b+c)操作,尽量使用 fma function

  如果定义了“FP_FAST_FMAF”宏,就可以使用函数fma(a,b,c)精确的计算a*b+c。函数fma(a,b,c)的执行时间小于或等于计算a*b+c。

9.在program file 文件中对非kernel的函数使用inline

  inline修饰符告诉编译器在调用inline函数的地方,使用函数体替换函数调用。虽然会使得编译后的代码占用memory增加,但是省去了函数调用时上下、函数调用栈的切换操作,节省时间。

10.避免分支预测惩罚,应该尽量使得条件判断为真的可能性大

  现代处理器一般都会进行“分支预测”,以便更好的提前“预取”下一条要执行的指令,使得“取指令、译码分析、执行、保存”尽可能的并行。

  在“分支预测”出错时,提前取到的指令,不是要执行的指令,就需要根据跳转指令,进行重新取指令,就是“分支预测惩罚”。

  看如下的代码:

 1 #include<stdio.h>
 2 int main()
 3 {
 4    int i=1;
 5    int b=0;
 6    if(i == 1)
 7            b=1;
 8     else
 9         b=0;
10     return 1;
11 }

  对应的汇编代码:

  

  (movl 赋值,cmpl 比较,jne 不等于跳转,jmp 无条件跳转)

  从上面的汇编指令代码看出,如果比较(<main+24>)结果相等,则执行<main+26>也就是比较指令的下一条指令,对应b=1顺序执行;如果比较(<main+24>)结果不相等,则执行跳转到<main+35>,不是顺序执行。

  当然,有的处理器可能会根据以往“顺序执行”与“跳转执行”的比例来进行分支预测,但是这也是需要积累的过程。况且并不是,每个处理器多能这样只能。

本文:http://www.cnblogs.com/xudong-bupt/p/3630952.html

  最后,上面的10个tips,能过提升kernel函数的性能,但是你应该进行具体的性能分析知道程序中最耗时的地方在哪里。当然了,只有通过实验才能真正学会OpenCL高性能编程。

 

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
JSON 开发工具 C++
Windows下用CMake编译JsonCpp及配置(适合新手)
Windows下用CMake编译JsonCpp及配置(适合新手)
1702 1
|
25天前
|
人工智能 缓存 安全
阿里云百炼Token Plan 标准坐席25,000 Credits 能用多少token或者调用次数?
阿里百炼Token Plan标准坐席198元/月,提供25,000 Credits额度(非固定Token数或调用次数)。支持多模型、全模态(文本/视觉/图像生成),动态计费,兼顾灵活与安全,适合轻度AI辅助团队。
|
6月前
|
人工智能 缓存 编解码
FFmpeg 官方汇编课程:写出快 5 倍的视频处理代码
FFmpeg官方开源汇编教程asm-lessons,手把手教你用SIMD指令优化音视频处理性能。从工具链到实战案例,掌握工业级高性能代码编写,提升程序效率数倍,适合C语言开发者进阶学习。
406 10
|
3月前
|
人工智能 算法 API
当AI开始胡说八道:我们如何测试大模型的“幻觉”问题
本文以真实案例切入,深入解析大模型“幻觉”现象——AI看似合理却事实错误的生成内容。系统梳理事实性、逻辑性、指令性等幻觉类型,分享知识库比对、逻辑自检、对抗测试、边界压力等实战检测方法,并提出分级修复策略与“降低频率、增强可识别性、关键场景防护”的治理思路,倡导以“可靠”而非“绝对正确”为目标的AI测试新范式。
|
编解码
FFmpeg开发笔记(三十三)分析ZLMediaKit对H.264流的插帧操作
《FFmpeg开发实战》书中3.4.3节讲解如何将H.264流封装成MP4。H.264流通常以SPS→PPS→IDR帧开始,这一说法通过雷霄骅的H264分析器得到验证。分析器能解析H.264文件但不支持MP4。ZLMediaKit服务器在遇到I帧时会自动插入SPS和PPS配置帧,确保流符合标准格式。若缺少这些帧,客户端拉流时会报错。FFmpeg开发实战:从零基础到短视频上线》书中提供了更多FFmpeg开发细节。
725 0
FFmpeg开发笔记(三十三)分析ZLMediaKit对H.264流的插帧操作
|
计算机视觉
Opencv错误笔记(一):通过cv2保存图片采用中文命名出现乱码
在使用OpenCV的cv2模块保存带有中文命名的图片时,直接使用cv2.imwrite()会导致乱码问题,可以通过改用cv2.imencode()方法来解决。
1119 0
Opencv错误笔记(一):通过cv2保存图片采用中文命名出现乱码
|
存储 机器学习/深度学习 并行计算
Pytorch NCHW/NHWC 的理解
Pytorch NCHW/NHWC 的理解
1274 1
|
存储 编解码
FFmpeg开发笔记(三十)解析H.264码流中的SPS帧和PPS帧
《FFmpeg开发实战》书中介绍了音视频编码历史,重点讲述H.264的成功在于其分为视频编码层和网络抽象层。H.264帧类型包括SPS(序列参数集,含视频规格参数),PPS(图像参数集,含编码参数)和IDR帧(立即解码刷新,关键帧)。SPS用于计算视频宽高和帧率,PPS存储编码设置,IDR帧则标志新的解码序列。书中还配以图片展示各帧结构详情,完整内容可参考相关书籍。
1540 7
FFmpeg开发笔记(三十)解析H.264码流中的SPS帧和PPS帧
|
PyTorch API TensorFlow
Nvidia TensorRT系列01-基本介绍
NVIDIA TensorRT 是一个高性能的机器学习推理SDK,支持 TensorFlow、PyTorch 等框架。本文介绍了 TensorRT 的基本概念、安装指南、快速开始、案例和互补软件,如 NVIDIA Triton 推理服务器、DALI 和 TF-TRT。同时,文章还涵盖了 ONNX 支持、版本控制和弃用策略等内容。
563 1
|
计算机视觉 Python
Opencv学习笔记(七):如何根据opencv将BGR转换为HSV
使用OpenCV库在Python中将BGR图像转换为HSV颜色空间的两种方法:一种是直接使用cv2.cvtColor函数,另一种是手动实现RGB到HSV的转换。
706 0
Opencv学习笔记(七):如何根据opencv将BGR转换为HSV

热门文章

最新文章