《CUDA高性能并行计算》----3.2 并行化dist_v2

简介: 第一个并行化的距离应用``dist_v1_cuda``不具有充分的代表性,因为它并没有涉及大量输入数据。现在我们已经准备好了并行化第二个距离应用``dist_v2``,这是一个更加典型的例子,涉及对一个输入数组的操作。将一个数组数据传递到GPU的策略并不复杂:

本 节 书 摘 来 自 华 章 出 版 社 《CUDA高性能并行计算》 一 书 中 的 第3章,第3.2节, 作 者 CUDA for Engineers: An Introduction to High-Performance Parallel Computing[美] 杜安·斯托尔蒂(Duane Storti)梅特·尤尔托卢(Mete Yurtoglu) 著,苏统华 项文成 李松泽 姚宇鹏 孙博文 译 , 更 多 章 节 内 容 可 以 访 问 云 栖 社 区 “华 章 计 算 机” 公 众 号 查 看。

3.2 并行化dist_v2

第一个并行化的距离应用dist_v1_cuda不具有充分的代表性,因为它并没有涉及大量输入数据。现在我们已经准备好了并行化第二个距离应用dist_v2,这是一个更加典型的例子,涉及对一个输入数组的操作。将一个数组数据传递到GPU的策略并不复杂:

1.在设备内存(GPU)上创建一个数组,类型和大小与主机内存(CPU)上的输入数组一致。

2.在设备内存上创建一个内存用来存储输出的数据。(你可以选择使用复用输入数组的办法存储输出,但是目前我们先将输入和输出分开考虑。)

3.将主机端的输入数组复制到设备内存上对应的数组上。

4.启动核函数进行计算并将输出值存储在设备内存上的输出数组中。

5.将设备内存中的输出数组复制回主机内存中的对应数组上。

6.释放设备上的数组内存。

上面列出的步骤很适合dist_v2的组织方式,其中包括了一个main.cpp文件(包含了main()函数的代码),一个单独的文件(名为aux_functions.cpp)来包含定义辅助功能的代码,一个头文件(名为aux_functions.h)来包含像distanceArray()函数一样的原型函数,使其可以在其他文件中被“看见”并调用(例如main.cpp文件)。

因为步骤4中涉及CUDA核函数调用,我们将aux_functions.cpp(及其对应的头文件)替换为kernel.cu(及其对应的头文件—kernel.h)。完整的代码在代码清单3.3、代码清单3.4以及代码清单3.5中显示,代码清单3.6是Makefile文件。


9a2c05249f7605e25ca1fb051829dd7ec88b8855

Dist_v2_cuda/main.cpp 的代码与dist_v2/main.cpp几乎一样。不同之处包括把scale()移到main.cpp中,并引用kernel.h来代替原来的aux_functions.h文件。最大的变化发生在kernel.cu文件中新定义的distanceArray()函数中。


c1a6cc5af8d76b5a549525356853b2281a2c75ed

这里需要强调几个要点:
1. distanceKernel()函数与dist_v1_cuda/kernel.cu中的版本有明显的不同。这里,形参包含了一个指针d_in,指向一个已经被构建好的输入数组。

2.对于distanceArray()新的定义执行了上面所列出的全部5个步骤。设备端的输入输出数组在第23~28行代码中定义;输入数据从主机端复制到设备端在第31行执行;从核函数调用并获取GPU并行化的执行结果在第43行;输出的距离值从设备端复制到主机端在第37行;设备端的内存释放在第40行和第41行。

3.函数distanceArray()调用核函数distance-Kernel()。这样的函数被称为封装(warpper)或者启动函数(launcher)。


eced5668df386f81e1da2f44a0f41fb0aa37cac0


7dd5166a76153095bf137455ad1abacb7a180829

读者可以用这些现成的代码编译并执行dist_v2_cuda。验证这些距离的值是否被正确计算,并且留意一下所有关键的CUDA代码都包含在kernel.cu文件中。对比distanceArray()函数在dist_v2/aux_functions.h和dist_v2_cuda/kernel.h中的原型。注意这些原型是完全相同的,但是函数的定义却被改变了。用软件开发的术语来说,我们改变了实现但是保持接口不变。这种方式为已有程序开发支持CUDA的版本提供了解决思路。

相关文章
|
数据采集 人工智能 自动驾驶
《突破AI数据标注高成本枷锁,势在必行!》
在人工智能快速发展的背景下,数据标注作为AI模型训练的基础,其高成本问题成为制约行业发展的关键因素。主要体现在人力、时间和管理成本上,尤其是在复杂领域和大规模数据处理中。为解决这一难题,行业探索了多种创新方案:技术层面,自动化标注工具与半监督学习技术显著提升效率;商业模式上,分布式众包和专业平台降低运营成本;人才培养方面,校企合作与激励机制优化标注质量。尽管仍存挑战,但通过多方协同,有望推动AI数据标注行业的高效发展,助力AI技术广泛应用。
623 9
|
10月前
|
机器学习/深度学习 人工智能 边缘计算
基于YOLOv8的包装箱纸板破损缺陷识别项目
本项目集成了 YOLOv8纸板破损缺陷检测模型 与 PyQt5图形界面工具,支持对工厂包装纸箱表面出现的多种破损瑕疵(如撕裂、压痕、孔洞等)进行快速准确识别。检测逻辑精准,界面操作便捷,适用于工厂自动质检、流水线布控系统等实际场景。提供完整训练流程与数据,开箱即用、部署无门槛,适合AI新手和工业视觉开发者学习与二次开发。
基于YOLOv8的包装箱纸板破损缺陷识别项目
|
传感器 人工智能 算法
探索人工智能与物联网的融合创新
随着科技的迅猛发展,人工智能(AI)和物联网(IoT)这两大技术正在逐渐深度融合,催生出一系列创新性应用。本文将探讨这一领域的技术原理、应用场景及其未来发展前景,旨在为读者提供全面而深入的理解。
1119 2
|
Ubuntu 安全 网络协议
|
前端开发 JavaScript 机器人
体验服务器搭建青龙面板实操报告
5813人阅读 目录 1、准备工作 2、青龙面板搭建及拉库 3、安装go等环境 4、安装XDD-PLUS及配置 5、其他
|
存储 缓存 JavaScript
一文梳理Vue3核心原理
一文梳理Vue3核心原理 前言 本篇文章更多是以梳理的视角进行讲述,将各个原理细节串在一起,方便查漏补缺,而非为了讲懂某个原理,当然也会大致讲解。所以如果某个原理不太清楚,请自行查阅其他文章,我也会尽量给出相关的阅读推荐。 ==本文阅读需要你有一定的vue应用程序开发经验并了解一些原理== 接下来先废话一下,关注知识点的可以直接跳过前言部分 首先,我们先回到最初的起点是为什么要使用Vue框架,它为我们做了什么工作: 能开发出一个应用? 性能好、构建产物轻量? 对用户友好,声明式代码心智负担小? 可组件化开发? 社区活跃,生态丰富? ...
2430 1
|
存储 程序员 数据安全/隐私保护
手摸手教你使用anki,适合程序员的学习神器
有了ta,八股文再也不会忘记啦
1430 0
手摸手教你使用anki,适合程序员的学习神器
|
存储 编译器 C语言
计算机组成原理-第二章 数据表示与运算
计算机必须了解的基础知识,计算机组成原理
计算机组成原理-第二章 数据表示与运算
|
存储 运维 算法
mybatis-plus雪花算法增强:idworker
mybatis-plus雪花算法增强:idworker
3801 0
mybatis-plus雪花算法增强:idworker
|
JSON JavaScript 安全
使用 React+ethers.js 开发简单加密钱包(一)
使用 React+ethers.js 开发简单加密钱包
1056 0