2.1 测试代码:共轭梯度法
本章中使用共轭梯度法作为标准测试代码。共轭梯度法是一种迭代算法,常用来逼近一组线性方程组成的大型稀疏系统。由于这种系统通常规模庞大,因此难于使用直接法进行求解。阅读本章不需要理解共轭梯度法的数学含义。提供了共轭梯度法的C和Fortran编码实现供读者参考。简洁起见,本章仅展示了C代码。不过不必担心,C代码的应用方式可以扩展到Fortran代码,两者区别不大。本章使用的代码遵循Apache许可,版本2.0。详情请阅读许可文件。
示例代码包含两种数据结构。第一个是向量结构,结构成员包含指向数组的指针和一个表征数组长度的整型变量。第二个是矩阵,以压缩稀疏行形式存储一个二维稀疏矩阵,该矩阵仅存储各行的非零元素。第二个数据结构还包含一个元数据,用来表示非零元素在原矩阵中的位置。这两种数据结构连同多个用来创建、销毁、操控这些数据结构的函数可以在vector.h和matrix.h头文件中找到。
性能导向开发的第一个任务是开发一套代码并获取它的性能作为基准性能。基准性能被用来作为逐步加速和比较的基础,以考察正确性和性能特性。makefile文件连同测试代码经过预设置以适应PGI编译器进行编译。如果读者使用其他OpenACC编译器,有必要对makefile文件进行适当的修改。
2.1.1 代码编译
提供的makefile文件可以用来编译CPU串行版代码,通过简单的make命令使用PGI编译器完成编译。为了给初始性能研究提供更多的有用信息,对编译器选项进行了一些修改,添加了一些性能调试选项。
-Minfo=all,ccff:该编译器选项告知编译器将它如何对代码进行优化的说明打印出来,并将这些信息植入到生成的可执行文件中。支持常用编译器反馈格式的调试工具能够利用这些信息。
修改后的makefile见图2-1。
这里,得到一个可执行程序(cg.x),该程序将串行执行共轭梯度基准测试。期望的输出见图2-2。可执行程序运行时间与CPU性能密切相关,会有一定出入,但总迭代次数和误差值与展示的求解值是相匹配的。
2.1.2 初始测试
首先使用PGProf性能调试器获取代码的基准CPU性能。这将有助于理解可执行程序的哪部分最为耗时,从而便于重点关注热点函数和循环,在加速后取得最好的效果。安装PGI编译器和OpenACC开发包后,就获得了PGProf性能调试器的使用权。在命令行终端键入pgprof命令可以打开PGProf性能调试器。性能调试器窗口开启后,在File菜单中选择New Session项,打开Create New Session对话框。通过File对话框,点击Browse按钮浏览并选择可执行程序,即cg.x。选中可执行程序后,点击Next按钮和Finish按钮。之后,性能调试器将开始运行可执行程序并以常规采样频率对程序运行状态进行监控,获取性能信息。运行完毕后,选择窗体底部的CPU详情选项卡,可执行程序中最为重要的函数信息将显示出来,如图2-3所示。
此时,双击最为耗时的函数matvec。会弹出一个对话框,请你选择源程序所在的路径。选择路径完毕后,将弹出一个关于matrix_functions.h中的matvec子程序的新选项卡。第33行对应的循环体将在左侧显示一个标记,该标记表明性能调试器可以获取该循环对应的编译器反馈信息。将鼠标停留在这些图形标记上,将弹出一个窗体,该窗体展示编译器能够对此循环附加的优化以及该循环的计算量大小,如图2-4所示。
分析编译器反馈信息是理解编译器可对代码采取何种优化的唯一途径。编译器可能会重新组织代码中的循环体,将循环拆分为更多个可调度的代码块,通过形如SSE和AVX类的向量指令操作将代码并行化,或不采取任何优化,以避免对难以优化和保证正确性的代码部分进行误操作。通常,编程人员对于编译器难以理解的代码有更深入的领悟。编译器对这些代码通常无法进行优化和并行化。本章致力于为编译器提供更多的信息,用以提升编译器的优化和并行化能力。这便是OpenACC编程的首要目标:为编译器提供充足的附加信息,指引它进行并行化编译,并使代码适用于各种类型的硬件设备。
经过对CPU性能表进行分析,发现了三个热点函数:matvec,waxpy和dot。耗时第四多的子程序是allocate_3d_poisson_matrix。但该函数是一个初始化子程序,仅仅运行一次,因此对该函数不做优化。代码显示,matvec子程序包含一个二重嵌套循环,实现了稀疏矩阵/向量乘。其他两个子程序均包含一个单重循环,实现了两种常见的向量操作(aX+bY和点乘)。这就是需要集中精力进行并行化的三个循环体。