GPGPU OpenCL Reduction操作与group同步

简介: Reduction操作:规约操作就是由多个数生成一个数,如求最大值、最小值、向量点积、求和等操作,都属于这一类操作。 有大量数据的情况下,使用GPU进行任务并行与数据并行,可以收到可好的效果。 group同步:OpenCL只提供了工作组内的各线程之间的同步机制,并没有提供所有线程的同步。

Reduction操作规约操作就是由多个数生成一个数,如求最大值、最小值、向量点积、求和等操作,都属于这一类操作。

有大量数据的情况下,使用GPU进行任务并行与数据并行,可以收到可好的效果。

group同步:OpenCL只提供了工作组内的各线程之间的同步机制,并没有提供所有线程的同步。提供组内item-work同步的方法:

  void barrier (cl_mem_fence_flags flags) 

  参数说明:cl_mem_fence_flags 可以取CLK_LOCAL_MEM_FENCE、CLK_GLOBAL_MEM_FENCE

  函数说明:(1)一个work-group中所有work-item遇到barrier方法,都要等待其他work-item也到达该语句,才能执行后面的程序;

        (2)还可以组内的work-item对local or global memory的顺序读写操作。

 

如下图中每个大框表示任务并行、每个group线程;框中的计算是数据并行、每个item-work线程:

作为练习,给出个完整的使用OpenCL计算整数序列求和,在数据并行中使用Local Memory 加速,group组内并行同步使用CLK_LOCAL_MEM_FENCE

程序实例(整数序列求和):

1.核函数(Own_Reduction_Kernels.cl):

 1 __kernel
 2 void 
 3 reduce(__global uint4* input, __global uint4* output, int NUM)
 4 {    
 5     NUM = NUM / 4;    //每四个数为一个整体uint4。
 6     unsigned int tid = get_local_id(0);
 7     unsigned int localSize = get_local_size(0);
 8     unsigned int globalSize = get_global_size(0);
 9 
10     uint4 res=(uint4){0,0,0,0};
11     __local uint4 resArray[64];
12 
13     
14     unsigned int i = get_global_id(0);
15     while(i < NUM)
16     {
17         res+=input[i];
18         i+=globalSize;
19     }
20     resArray[tid]=res;    //将每个work-item计算结果保存到对应__local memory中
21     barrier(CLK_LOCAL_MEM_FENCE);
22 
23     // do reduction in shared mem
24     for(unsigned int s = localSize >> 1; s > 0; s >>= 1) 
25     {
26         if(tid < s) 
27         {
28             resArray[tid] += resArray[tid + s];
29         }
30         barrier(CLK_LOCAL_MEM_FENCE);
31     }
32 
33     // write result for this block to global mem
34     if(tid == 0) 
35         output[get_group_id(0)] = resArray[0];
36 }

2.tool.h 、tool.cpp

 见:http://www.cnblogs.com/xudong-bupt/p/3582780.html 

3.Reduction.cpp

  1 #include <CL/cl.h>
  2 #include "tool.h"
  3 #include <string.h>
  4 #include <stdio.h>
  5 #include <stdlib.h>
  6 #include <iostream>
  7 #include <string>
  8 #include <fstream>
  9 using namespace std;
 10 
 11 int isVerify(int NUM,int groupNUM,int *res)    //校验结果
 12 {
 13        int sum1 = (NUM+1)*NUM/2;
 14     int sum2 = 0;
 15     for(int i = 0;i < groupNUM*4; i++)
 16         sum2 += res[i];
 17     if(sum1 == sum2)
 18         return 0;
 19     return -1;
 20 }
 21 
 22 void isStatusOK(cl_int status)    //判断状态码
 23 {
 24     if(status == CL_SUCCESS)
 25         cout<<"RIGHT"<<endl;
 26     else
 27         cout<<"ERROR"<<endl;
 28 }
 29 
 30 int main(int argc, char* argv[])
 31 {
 32     cl_int    status;
 33     /**Step 1: Getting platforms and choose an available one(first).*/
 34     cl_platform_id platform;
 35     getPlatform(platform);
 36 
 37     /**Step 2:Query the platform and choose the first GPU device if has one.*/
 38     cl_device_id *devices=getCl_device_id(platform);
 39 
 40     /**Step 3: Create context.*/
 41     cl_context context = clCreateContext(NULL,1, devices,NULL,NULL,NULL);
 42 
 43     /**Step 4: Creating command queue associate with the context.*/
 44     cl_command_queue commandQueue = clCreateCommandQueue(context, devices[0], 0, NULL);
 45 
 46     /**Step 5: Create program object */
 47     const char *filename = "Own_Reduction_Kernels.cl";
 48     string sourceStr;
 49     status = convertToString(filename, sourceStr);
 50     const char *source = sourceStr.c_str();
 51     size_t sourceSize[] = {strlen(source)};
 52     cl_program program = clCreateProgramWithSource(context, 1, &source, sourceSize, NULL);
 53 
 54     /**Step 6: Build program. */
 55     status=clBuildProgram(program, 1,devices,NULL,NULL,NULL);
 56 
 57     /**Step 7: Initial input,output for the host and create memory objects for the kernel*/
 58     int NUM=25600;    //6400*4
 59     size_t global_work_size[1] = {640};  ///
 60     size_t local_work_size[1]={64};    ///256 PE
 61     size_t groupNUM=global_work_size[0]/local_work_size[0];
 62     int* input = new int[NUM];
 63     for(int i=0;i<NUM;i++)
 64         input[i]=i+1;
 65     int* output = new int[(global_work_size[0]/local_work_size[0])*4];
 66 
 67     cl_mem inputBuffer = clCreateBuffer(context, CL_MEM_READ_ONLY|CL_MEM_COPY_HOST_PTR, (NUM) * sizeof(int),(void *) input, NULL);
 68     cl_mem outputBuffer = clCreateBuffer(context, CL_MEM_WRITE_ONLY , groupNUM*4* sizeof(int), NULL, NULL);
 69 
 70     /**Step 8: Create kernel object */
 71     cl_kernel kernel = clCreateKernel(program,"reduce", NULL);
 72 
 73     /**Step 9: Sets Kernel arguments.*/
 74     status = clSetKernelArg(kernel, 0, sizeof(cl_mem), (void *)&inputBuffer);
 75     status = clSetKernelArg(kernel, 1, sizeof(cl_mem), (void *)&outputBuffer);
 76     status = clSetKernelArg(kernel, 2, sizeof(int), &NUM);
 77 
 78     /**Step 10: Running the kernel.*/
 79     cl_event enentPoint;
 80     status = clEnqueueNDRangeKernel(commandQueue, kernel, 1, NULL, global_work_size, local_work_size, 0, NULL, &enentPoint);
 81     clWaitForEvents(1,&enentPoint); ///wait
 82     clReleaseEvent(enentPoint);
 83     isStatusOK(status);
 84             
 85     /**Step 11: Read the cout put back to host memory.*/
 86     status = clEnqueueReadBuffer(commandQueue, outputBuffer, CL_TRUE, 0,groupNUM*4 * sizeof(int), output, 0, NULL, NULL);
 87     isStatusOK(status);
 88     if(isVerify(NUM, groupNUM ,output) == 0)
 89         cout<<"The result is right!!!"<<endl;
 90     else
 91         cout<<"The result is wrong!!!"<<endl;
 92 
 93     /**Step 12: Clean the resources.*/
 94     status = clReleaseKernel(kernel);//*Release kernel.
 95     status = clReleaseProgram(program);    //Release the program object.
 96     status = clReleaseMemObject(inputBuffer);//Release mem object.
 97     status = clReleaseMemObject(outputBuffer);
 98     status = clReleaseCommandQueue(commandQueue);//Release  Command queue.
 99     status = clReleaseContext(context);//Release context.
100 
101     free(input);
102     free(output);
103     free(devices);
104     return 0;
105 }
View Code

 

 

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
4月前
|
并行计算 TensorFlow 调度
推荐场景GPU优化的探索与实践:CUDA Graph与多流并行的比较与分析
RTP 系统(即 Rank Service),是一个面向搜索和推荐的 ranking 需求,支持多种模型的在线 inference 服务,是阿里智能引擎团队沉淀多年的技术产品。今年,团队在推荐场景的GPU性能优化上又做了新尝试——在RTP上集成了Multi Stream,改变了TensorFlow的单流机制,让多流的执行并行,作为增加GPU并行度的另一种选择。本文详细介绍与比较了CUDA Graph与多流并行这两个方案,以及团队的实践成果与心得。
|
Unix 异构计算 Windows
带你读《基于CUDA的GPU并行程序开发指南》之一:CPU并行编程概述
本书旨在帮助读者了解与基于CUDA的并行编程技术有关的基本概念,并掌握实用c语言进行GPU高性能编程的相关技巧。本书第一部分通过CPU多线程编程解释了并行计算,使得没有太多并行计算基础的读者也能毫无阻碍地进入CUDA天地;第二部分重点介绍了基于CUDA的GPU大规模并行程序的开发与实现,并通过大量的性能分析帮助读者理解如何开发一个好的GPU并行程序以及GPU架构对程序性能的影响;本书的第三部分介绍了一些常用的CUDA库。
|
2月前
|
机器学习/深度学习 存储 编解码
多任务学习新篇章 | EMA-Net利用Cross-Task Affinity实现参数高效的高性能预测
多任务学习新篇章 | EMA-Net利用Cross-Task Affinity实现参数高效的高性能预测
42 0
|
3月前
|
并行计算 PyTorch 算法框架/工具
基于mps的pytorch 多实例并行推理
基于mps的pytorch 多实例并行推理
110 1
|
8月前
|
机器学习/深度学习 并行计算 安全
PyTorch并行与分布式(四)Distributed Data Papallel
PyTorch并行与分布式(四)Distributed Data Papallel
158 0
|
8月前
|
存储 并行计算 网络协议
PyTorch并行与分布式(二)分布式通信包torch.distributed
PyTorch并行与分布式(二)分布式通信包torch.distributed
270 0
|
机器学习/深度学习 并行计算 算法
在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练
在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练
747 0
在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练
|
SQL 存储 分布式计算
【详谈 Delta Lake 】系列技术专题 之 特性(Features)
本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。本系列技术文章,将详细展开介绍 Delta Lake。
【详谈 Delta Lake 】系列技术专题 之 特性(Features)
|
机器学习/深度学习 人工智能 TensorFlow
如何实现Tensorflow多机并行线性加速?
tensorflow/core/kernels/http://training_ops.cc中的ApplyXXXOp(ApplyGradientDescentOp,ApplyAdagradOp,ApplyMomentumOp等),将本地的梯度更新修改为 发送 如何实现Tensorflow多机并行线性...
4930 0