《OpenACC并行程序设计:性能优化实践指南》一 2.1 测试代码:共轭梯度法

简介: 本节书摘来自华章出版社《OpenACC并行程序设计:性能优化实践指南》一 书中的第2章,第2.1节,作者:[美] 罗布·法伯(Rob Farber),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.1 测试代码:共轭梯度法

本章中使用共轭梯度法作为标准测试代码。共轭梯度法是一种迭代算法,常用来逼近一组线性方程组成的大型稀疏系统。由于这种系统通常规模庞大,因此难于使用直接法进行求解。阅读本章不需要理解共轭梯度法的数学含义。提供了共轭梯度法的C和Fortran编码实现供读者参考。简洁起见,本章仅展示了C代码。不过不必担心,C代码的应用方式可以扩展到Fortran代码,两者区别不大。本章使用的代码遵循Apache许可,版本2.0。详情请阅读许可文件。
示例代码包含两种数据结构。第一个是向量结构,结构成员包含指向数组的指针和一个表征数组长度的整型变量。第二个是矩阵,以压缩稀疏行形式存储一个二维稀疏矩阵,该矩阵仅存储各行的非零元素。第二个数据结构还包含一个元数据,用来表示非零元素在原矩阵中的位置。这两种数据结构连同多个用来创建、销毁、操控这些数据结构的函数可以在vector.h和matrix.h头文件中找到。
性能导向开发的第一个任务是开发一套代码并获取它的性能作为基准性能。基准性能被用来作为逐步加速和比较的基础,以考察正确性和性能特性。makefile文件连同测试代码经过预设置以适应PGI编译器进行编译。如果读者使用其他OpenACC编译器,有必要对makefile文件进行适当的修改。

2.1.1 代码编译

提供的makefile文件可以用来编译CPU串行版代码,通过简单的make命令使用PGI编译器完成编译。为了给初始性能研究提供更多的有用信息,对编译器选项进行了一些修改,添加了一些性能调试选项。
-Minfo=all,ccff:该编译器选项告知编译器将它如何对代码进行优化的说明打印出来,并将这些信息植入到生成的可执行文件中。支持常用编译器反馈格式的调试工具能够利用这些信息。
修改后的makefile见图2-1。
这里,得到一个可执行程序(cg.x),该程序将串行执行共轭梯度基准测试。期望的输出见图2-2。可执行程序运行时间与CPU性能密切相关,会有一定出入,但总迭代次数和误差值与展示的求解值是相匹配的。

screenshot

2.1.2 初始测试

首先使用PGProf性能调试器获取代码的基准CPU性能。这将有助于理解可执行程序的哪部分最为耗时,从而便于重点关注热点函数和循环,在加速后取得最好的效果。安装PGI编译器和OpenACC开发包后,就获得了PGProf性能调试器的使用权。在命令行终端键入pgprof命令可以打开PGProf性能调试器。性能调试器窗口开启后,在File菜单中选择New Session项,打开Create New Session对话框。通过File对话框,点击Browse按钮浏览并选择可执行程序,即cg.x。选中可执行程序后,点击Next按钮和Finish按钮。之后,性能调试器将开始运行可执行程序并以常规采样频率对程序运行状态进行监控,获取性能信息。运行完毕后,选择窗体底部的CPU详情选项卡,可执行程序中最为重要的函数信息将显示出来,如图2-3所示。
此时,双击最为耗时的函数matvec。会弹出一个对话框,请你选择源程序所在的路径。选择路径完毕后,将弹出一个关于matrix_functions.h中的matvec子程序的新选项卡。第33行对应的循环体将在左侧显示一个标记,该标记表明性能调试器可以获取该循环对应的编译器反馈信息。将鼠标停留在这些图形标记上,将弹出一个窗体,该窗体展示编译器能够对此循环附加的优化以及该循环的计算量大小,如图2-4所示。

screenshot

screenshot

分析编译器反馈信息是理解编译器可对代码采取何种优化的唯一途径。编译器可能会重新组织代码中的循环体,将循环拆分为更多个可调度的代码块,通过形如SSE和AVX类的向量指令操作将代码并行化,或不采取任何优化,以避免对难以优化和保证正确性的代码部分进行误操作。通常,编程人员对于编译器难以理解的代码有更深入的领悟。编译器对这些代码通常无法进行优化和并行化。本章致力于为编译器提供更多的信息,用以提升编译器的优化和并行化能力。这便是OpenACC编程的首要目标:为编译器提供充足的附加信息,指引它进行并行化编译,并使代码适用于各种类型的硬件设备。
经过对CPU性能表进行分析,发现了三个热点函数:matvec,waxpy和dot。耗时第四多的子程序是allocate_3d_poisson_matrix。但该函数是一个初始化子程序,仅仅运行一次,因此对该函数不做优化。代码显示,matvec子程序包含一个二重嵌套循环,实现了稀疏矩阵/向量乘。其他两个子程序均包含一个单重循环,实现了两种常见的向量操作(aX+bY和点乘)。这就是需要集中精力进行并行化的三个循环体。

相关文章
|
6天前
|
Web App开发 JavaScript 前端开发
添加浮动按钮点击滚动到网页底部的纯JavaScript演示代码 IE9、11,Maxthon 1.6.7,Firefox30、31,360极速浏览器7.5.3.308下测试正常
添加浮动按钮点击滚动到网页底部的纯JavaScript演示代码 IE9、11,Maxthon 1.6.7,Firefox30、31,360极速浏览器7.5.3.308下测试正常
|
20天前
|
SQL JavaScript 前端开发
基于Python访问Hive的pytest测试代码实现
根据《用Java、Python来开发Hive应用》一文,建立了使用Python、来开发Hive应用的方法,产生的代码如下
49 6
基于Python访问Hive的pytest测试代码实现
|
4天前
|
Java C++
代码文件间重复性测试
本文介绍了如何使用代码相似性检测工具simian来找出代码文件中的重复行,并通过示例指令展示了如何将检测结果输出到指定的文本文件中。
|
22天前
|
测试技术 UED
软件测试的艺术:从代码到品质的探索之旅
在数字时代的浪潮中,软件已成为我们生活和工作不可或缺的一部分。然而,高质量的软件背后隐藏着一门鲜为人知的艺术——软件测试。本文将带你走进这门艺术的世界,从基础理论到实践应用,一起探索如何通过软件测试保障产品质量,提升用户体验,并最终实现从代码到品质的华丽转变。
|
15天前
|
敏捷开发 安全 测试技术
软件测试的艺术:从代码到用户体验的全方位解析
本文将深入探讨软件测试的重要性和实施策略,通过分析不同类型的测试方法和工具,展示如何有效地提升软件质量和用户满意度。我们将从单元测试、集成测试到性能测试等多个角度出发,详细解释每种测试方法的实施步骤和最佳实践。此外,文章还将讨论如何通过持续集成和自动化测试来优化测试流程,以及如何建立有效的测试团队来应对快速变化的市场需求。通过实际案例的分析,本文旨在为读者提供一套系统而实用的软件测试策略,帮助读者在软件开发过程中做出更明智的决策。
|
20天前
|
SQL JavaScript 前端开发
基于Java访问Hive的JUnit5测试代码实现
根据《用Java、Python来开发Hive应用》一文,建立了使用Java、来开发Hive应用的方法,产生的代码如下
49 6
|
21天前
|
测试技术 持续交付
软件测试的艺术:从代码到信心的旅程
探索软件测试不仅仅是发现错误的技术过程,它是一场从编码到用户信心的转化之旅。本文将带你了解如何通过创造性思维和系统方法,将软件测试变成一门艺术,确保产品质量的同时,提升用户对技术的信赖。
33 4
|
2月前
|
JSON Dubbo 测试技术
单元测试问题之增加JCode5插件生成的测试代码的可信度如何解决
单元测试问题之增加JCode5插件生成的测试代码的可信度如何解决
47 2
单元测试问题之增加JCode5插件生成的测试代码的可信度如何解决
|
25天前
|
人工智能 计算机视觉
AI计算机视觉笔记十五:编写检测的yolov5测试代码
该文为原创文章,如需转载,请注明出处。本文作者在成功运行 `detect.py` 后,因代码难以理解而编写了一个简易测试程序,用于加载YOLOv5模型并检测图像中的对象,特别是“人”类目标。代码实现了从摄像头或图片读取帧、进行颜色转换,并利用YOLOv5进行推理,最后将检测框和置信度绘制在输出图像上,并保存为 `result.jpg`。如果缺少某些模块,可使用 `pip install` 安装。如涉及版权问题或需获取完整代码,请联系作者。
|
7天前
|
机器学习/深度学习 敏捷开发 测试技术
软件测试的艺术:从代码到用户心灵的旅程
在阅读本文之前,让我们先共同思考一个问题:“为什么即使是最小的错误,也可能对用户体验和企业声誉造成巨大的影响?” 正如我们将要探讨的,软件测试不仅是技术活动的一种,更是确保产品质量、优化用户体验和维持品牌声誉的关键步骤。本文将引导您了解软件测试的基本概念,探索其背后的艺术性,以及如何高效地实施测试策略来达到最佳的质量保证结果。
19 0
下一篇
无影云桌面