《OpenACC并行程序设计:性能优化实践指南》一 2.1 测试代码:共轭梯度法

简介: 本节书摘来自华章出版社《OpenACC并行程序设计:性能优化实践指南》一 书中的第2章,第2.1节,作者:[美] 罗布·法伯(Rob Farber),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.1 测试代码:共轭梯度法

本章中使用共轭梯度法作为标准测试代码。共轭梯度法是一种迭代算法,常用来逼近一组线性方程组成的大型稀疏系统。由于这种系统通常规模庞大,因此难于使用直接法进行求解。阅读本章不需要理解共轭梯度法的数学含义。提供了共轭梯度法的C和Fortran编码实现供读者参考。简洁起见,本章仅展示了C代码。不过不必担心,C代码的应用方式可以扩展到Fortran代码,两者区别不大。本章使用的代码遵循Apache许可,版本2.0。详情请阅读许可文件。
示例代码包含两种数据结构。第一个是向量结构,结构成员包含指向数组的指针和一个表征数组长度的整型变量。第二个是矩阵,以压缩稀疏行形式存储一个二维稀疏矩阵,该矩阵仅存储各行的非零元素。第二个数据结构还包含一个元数据,用来表示非零元素在原矩阵中的位置。这两种数据结构连同多个用来创建、销毁、操控这些数据结构的函数可以在vector.h和matrix.h头文件中找到。
性能导向开发的第一个任务是开发一套代码并获取它的性能作为基准性能。基准性能被用来作为逐步加速和比较的基础,以考察正确性和性能特性。makefile文件连同测试代码经过预设置以适应PGI编译器进行编译。如果读者使用其他OpenACC编译器,有必要对makefile文件进行适当的修改。

2.1.1 代码编译

提供的makefile文件可以用来编译CPU串行版代码,通过简单的make命令使用PGI编译器完成编译。为了给初始性能研究提供更多的有用信息,对编译器选项进行了一些修改,添加了一些性能调试选项。
-Minfo=all,ccff:该编译器选项告知编译器将它如何对代码进行优化的说明打印出来,并将这些信息植入到生成的可执行文件中。支持常用编译器反馈格式的调试工具能够利用这些信息。
修改后的makefile见图2-1。
这里,得到一个可执行程序(cg.x),该程序将串行执行共轭梯度基准测试。期望的输出见图2-2。可执行程序运行时间与CPU性能密切相关,会有一定出入,但总迭代次数和误差值与展示的求解值是相匹配的。

screenshot

2.1.2 初始测试

首先使用PGProf性能调试器获取代码的基准CPU性能。这将有助于理解可执行程序的哪部分最为耗时,从而便于重点关注热点函数和循环,在加速后取得最好的效果。安装PGI编译器和OpenACC开发包后,就获得了PGProf性能调试器的使用权。在命令行终端键入pgprof命令可以打开PGProf性能调试器。性能调试器窗口开启后,在File菜单中选择New Session项,打开Create New Session对话框。通过File对话框,点击Browse按钮浏览并选择可执行程序,即cg.x。选中可执行程序后,点击Next按钮和Finish按钮。之后,性能调试器将开始运行可执行程序并以常规采样频率对程序运行状态进行监控,获取性能信息。运行完毕后,选择窗体底部的CPU详情选项卡,可执行程序中最为重要的函数信息将显示出来,如图2-3所示。
此时,双击最为耗时的函数matvec。会弹出一个对话框,请你选择源程序所在的路径。选择路径完毕后,将弹出一个关于matrix_functions.h中的matvec子程序的新选项卡。第33行对应的循环体将在左侧显示一个标记,该标记表明性能调试器可以获取该循环对应的编译器反馈信息。将鼠标停留在这些图形标记上,将弹出一个窗体,该窗体展示编译器能够对此循环附加的优化以及该循环的计算量大小,如图2-4所示。

screenshot

screenshot

分析编译器反馈信息是理解编译器可对代码采取何种优化的唯一途径。编译器可能会重新组织代码中的循环体,将循环拆分为更多个可调度的代码块,通过形如SSE和AVX类的向量指令操作将代码并行化,或不采取任何优化,以避免对难以优化和保证正确性的代码部分进行误操作。通常,编程人员对于编译器难以理解的代码有更深入的领悟。编译器对这些代码通常无法进行优化和并行化。本章致力于为编译器提供更多的信息,用以提升编译器的优化和并行化能力。这便是OpenACC编程的首要目标:为编译器提供充足的附加信息,指引它进行并行化编译,并使代码适用于各种类型的硬件设备。
经过对CPU性能表进行分析,发现了三个热点函数:matvec,waxpy和dot。耗时第四多的子程序是allocate_3d_poisson_matrix。但该函数是一个初始化子程序,仅仅运行一次,因此对该函数不做优化。代码显示,matvec子程序包含一个二重嵌套循环,实现了稀疏矩阵/向量乘。其他两个子程序均包含一个单重循环,实现了两种常见的向量操作(aX+bY和点乘)。这就是需要集中精力进行并行化的三个循环体。

相关文章
|
3月前
|
数据采集 机器学习/深度学习 大数据
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
这篇文章详细介绍了C3D架构在行为检测领域的应用,包括训练和测试步骤,使用UCF101数据集进行演示。
87 1
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
|
3月前
|
机器学习/深度学习 人工智能 监控
提升软件质量的关键路径:高效测试策略与实践在软件开发的宇宙中,每一行代码都如同星辰般璀璨,而将这些星辰编织成星系的过程,则依赖于严谨而高效的测试策略。本文将引领读者探索软件测试的奥秘,揭示如何通过精心设计的测试方案,不仅提升软件的性能与稳定性,还能加速产品上市的步伐,最终实现质量与效率的双重飞跃。
在软件工程的浩瀚星海中,测试不仅是发现缺陷的放大镜,更是保障软件质量的坚固防线。本文旨在探讨一种高效且创新的软件测试策略框架,它融合了传统方法的精髓与现代技术的突破,旨在为软件开发团队提供一套系统化、可执行性强的测试指引。我们将从测试规划的起点出发,沿着测试设计、执行、反馈再到持续优化的轨迹,逐步展开论述。每一步都强调实用性与前瞻性相结合,确保测试活动能够紧跟软件开发的步伐,及时适应变化,有效应对各种挑战。
|
6天前
|
算法 Java 测试技术
使用 BenchmarkDotNet 对 .NET 代码进行性能基准测试
使用 BenchmarkDotNet 对 .NET 代码进行性能基准测试
39 13
|
4月前
|
Web App开发 JavaScript 前端开发
添加浮动按钮点击滚动到网页底部的纯JavaScript演示代码 IE9、11,Maxthon 1.6.7,Firefox30、31,360极速浏览器7.5.3.308下测试正常
添加浮动按钮点击滚动到网页底部的纯JavaScript演示代码 IE9、11,Maxthon 1.6.7,Firefox30、31,360极速浏览器7.5.3.308下测试正常
|
2月前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
65 1
|
4月前
|
SQL JavaScript 前端开发
基于Python访问Hive的pytest测试代码实现
根据《用Java、Python来开发Hive应用》一文,建立了使用Python、来开发Hive应用的方法,产生的代码如下
85 6
基于Python访问Hive的pytest测试代码实现
|
4月前
|
Java C++
代码文件间重复性测试
本文介绍了如何使用代码相似性检测工具simian来找出代码文件中的重复行,并通过示例指令展示了如何将检测结果输出到指定的文本文件中。
|
4月前
|
测试技术 UED
软件测试的艺术:从代码到品质的探索之旅
在数字时代的浪潮中,软件已成为我们生活和工作不可或缺的一部分。然而,高质量的软件背后隐藏着一门鲜为人知的艺术——软件测试。本文将带你走进这门艺术的世界,从基础理论到实践应用,一起探索如何通过软件测试保障产品质量,提升用户体验,并最终实现从代码到品质的华丽转变。
|
4月前
|
敏捷开发 安全 测试技术
软件测试的艺术:从代码到用户体验的全方位解析
本文将深入探讨软件测试的重要性和实施策略,通过分析不同类型的测试方法和工具,展示如何有效地提升软件质量和用户满意度。我们将从单元测试、集成测试到性能测试等多个角度出发,详细解释每种测试方法的实施步骤和最佳实践。此外,文章还将讨论如何通过持续集成和自动化测试来优化测试流程,以及如何建立有效的测试团队来应对快速变化的市场需求。通过实际案例的分析,本文旨在为读者提供一套系统而实用的软件测试策略,帮助读者在软件开发过程中做出更明智的决策。
|
4月前
|
SQL JavaScript 前端开发
基于Java访问Hive的JUnit5测试代码实现
根据《用Java、Python来开发Hive应用》一文,建立了使用Java、来开发Hive应用的方法,产生的代码如下
83 6