《CUDA C编程权威指南》——2.3　组织并行线程-阿里云开发者社区

《CUDA C编程权威指南》——2.3　组织并行线程

2017-07-03 2284

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《CUDA C编程权威指南》一书中的第2章，第2.3节，作者 [美] 马克斯·格罗斯曼（Max Grossman），译颜成钢殷建李亮，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3　组织并行线程

从前面的例子可以看出，如果使用了合适的网格和块大小来正确地组织线程，那么可以对内核性能产生很大的影响。在向量加法的例子中，为了实现最佳性能我们调整了块的大小，并基于块大小和向量数据大小计算出了网格大小。

现在通过一个矩阵加法的例子来进一步说明这一点。对于矩阵运算，传统的方法是在内核中使用一个包含二维网格与二维块的布局来组织线程。但是，这种传统的方法无法获得最佳性能。在矩阵加法中使用以下布局将有助于了解更多关于网格和块的启发性的用法：

由二维线程块构成的二维网格
由一维线程块构成的一维网格
由一维线程块构成的二维网格

2.3.1　使用块和线程建立矩阵索引

通常情况下，一个矩阵用行优先的方法在全局内存中进行线性存储。图2-9所示的是一个8×6矩阵的小例子。

在一个矩阵加法核函数中，一个线程通常被分配一个数据元素来处理。首先要完成的任务是使用块和线程索引从全局内存中访问指定的数据。通常情况下，对一个二维示例来说，需要管理3种索引：

线程和块索引
矩阵中给定点的坐标
全局线性内存中的偏移量

对于一个给定的线程，首先可以通过把线程和块索引映射到矩阵坐标上来获取线程块和线程索引的全局内存偏移量，然后将这些矩阵坐标映射到全局内存的存储单元中。

第一步，可以用以下公式把线程和块索引映射到矩阵坐标上：

第二步，可以用以下公式把矩阵坐标映射到全局内存中的索引/存储单元上：

图2-10说明了块和线程索引、矩阵坐标以及线性全局内存索引之间的对应关系。

printThreadInfo函数被用于输出关于每个线程的以下信息：

线程索引
块索引
矩阵坐标
线性全局内存偏移量
相应元素的值

用以下命令编译并运行该程序：

对于每个线程，你可以获取以下信息：

图2-11说明了这三项索引之间的关系。

2.3.2　使用二维网格和二维块对矩阵求和

在本节中，我们将使用一个二维网格和二维块来编写一个矩阵加法核函数。首先，应编写一个校验主函数以验证矩阵加法核函数是否能得出正确的结果：

然后，创建一个新的核函数，目的是采用一个二维线程块来进行矩阵求和：

这个核函数的关键步骤是将每个线程从它的线程索引映射到全局线性内存索引中，如图2-12所示。

接下来，每个维度下的矩阵大小可以按如下方法设置为16 384个元素：

然后，使用一个二维网格和二维块按如下方法设置核函数的执行配置：

把所有的代码整合到名为sumMatrixOnGPU-2D-grid-2D-block.cu的文件中。主函数代码如代码清单2-7所示。

用以下命令编译并运行该代码：

在Tesla M2070上运行的结果：

接下来，调整块的尺寸为32×16并重新编译和运行该代码。核函数的执行速度几乎快了两倍：

你可能好奇为什么只是改变了执行配置，内核性能就几乎翻了一倍。直观地说，你可能会觉得这是因为第二次配置的线程块数是第一次配置块数的两倍，所以并行性也是两倍。你的直觉是正确的，但是，如果进一步减小块的大小变为16×16，相比第一次配置你已经将块的数量翻了四倍。如下所示，这种配置的结果比第一个好但是不如第二个。