现在主要的并行计算设备有两种发展趋势:
(1)多核CPU。
双核,四核,八核,。。。,72核,。。。,可以使用OpenMP编译处理方案,就是指导编译器编译为多核并行执行。
(2)多线程设备(GP)GPU。
通用GPU,就是显卡,以nvidia公司的显卡为主。nvidia使用CUDA编程。
由于毕业的需要,现在开始学习CUDA编程。看了一段时间教程,目前环境已经配好,下面是一个简单的CUDA程序:
程序实现向量的加法操作,使用了一个block内部的512个线程。
1 #include <stdio.h> 2 #include<cuda_runtime.h> 3 4 //__global__声明的函数,告诉编译器这段代码交由CPU调用,由GPU执行 5 __global__ void add(const int *dev_a,const int *dev_b,int *dev_c) 6 { 7 int i=threadIdx.x; 8 dev_c[i]=dev_a[i]+dev_b[i]; 9 } 10 11 int main(void) 12 { 13 //申请主机内存,并进行初始化 14 int host_a[512],host_b[512],host_c[512]; 15 for(int i=0;i<512;i++) 16 { 17 host_a[i]=i; 18 host_b[i]=i<<1; 19 } 20 21 //定义cudaError,默认为cudaSuccess(0) 22 cudaError_t err = cudaSuccess; 23 24 //申请GPU存储空间 25 int *dev_a,*dev_b,*dev_c; 26 err=cudaMalloc((void **)&dev_a, sizeof(int)*512); 27 err=cudaMalloc((void **)&dev_b, sizeof(int)*512); 28 err=cudaMalloc((void **)&dev_c, sizeof(int)*512); 29 if(err!=cudaSuccess) 30 { 31 printf("the cudaMalloc on GPU is failed"); 32 return 1; 33 } 34 printf("SUCCESS"); 35 //将要计算的数据使用cudaMemcpy传送到GPU 36 cudaMemcpy(dev_a,host_a,sizeof(host_a),cudaMemcpyHostToDevice); 37 cudaMemcpy(dev_b,host_b,sizeof(host_b),cudaMemcpyHostToDevice); 38 39 //调用核函数在GPU上执行。数据较少,之使用一个Block,含有512个线程 40 add<<<1,512>>>(dev_a,dev_b,dev_c); 41 cudaMemcpy(&host_c,dev_c,sizeof(host_c),cudaMemcpyDeviceToHost); 42 for(int i=0;i<512;i++) 43 printf("host_a[%d] + host_b[%d] = %d + %d = %d\n",i,i,host_a[i],host_b[i],host_c[i]); 44 cudaFree(dev_a);//释放GPU内存 45 cudaFree(dev_b);//释放GPU内存 46 cudaFree(dev_c);//释放GPU内存 47 return 0 ; 48 }
程序输出: