《CUDA高性能并行计算》----第0章 本 书 导 读 0.1 什么是CUDA

简介: 欢迎阅读本书。本书的目标是让你亲身参与个人高性能计算(Personal High-Performance Computing,PHPC)。如果你跟随我们的CUDA世界之旅,只需一台基本的游戏级计算机,你就可以执行大规模并行计算并从中获益。

本 节 书 摘 来 自 华 章 出 版 社 《CUDA高性能并行计算》 一 书 中 的 第0章,第0.1节, 作 者 CUDA for Engineers: An Introduction to High-Performance Parallel Computing[美] 杜安·斯托尔蒂(Duane Storti)梅特·尤尔托卢(Mete Yurtoglu) 著,苏统华 项文成 李松泽 姚宇鹏 孙博文 译 , 更 多 章 节 内 容 可 以 访 问 云 栖 社 区 “华 章 计 算 机” 公 众 号 查 看。

第0章

本 书 导 读

欢迎阅读本书。本书的目标是让你亲身参与个人高性能计算(Personal High-Performance Computing,PHPC)。如果你跟随我们的CUDA世界之旅,只需一台基本的游戏级计算机,你就可以执行大规模并行计算并从中获益。这种规模的计算任务在几年之前是需要超级计算机才能完成的。本书包含的内容能够帮助你去阅读更高深的CUDA著作并开发自己的CUDA项目。
首先,介绍一下CUDA以及我们的教学策略。

0.1 什么是CUDA

CUDA是英伟达公司为促进高性能并行计算的普及所创建的支持并行计算的软硬件平台。CUDA的硬件方面涉及显卡上配备的一个或多个兼容CUDA的图形处理器(Graphics Processing Units,GPU)。英伟达CUDA工具箱软件则提供了基于C/C++编程语言的开发环境[1]。
CUDA使用的基于GPU方式的大规模并行计算也是很多最快和最节能超级计算机所采用的关键技术。核心的度量准则已经从每秒浮点计算次数(FLOPS)转变为每瓦电能的每秒浮点计算次数(FLOPS/watt,即计算的总量除以消耗的能量)。而GPU并行方式在每瓦电能的每秒浮点计算次数上具有优势。实际上,在2012年6月到2013年12月期间,全世界最节能的10大超级计算机从刚开始的完全基于IBM的绿色基因系统(配有PowerPC CPU)转变成基于英伟达公司的GPU系统[2]。在这个快速转换为GPU计算的过程中,计算能力与电能消耗的比率已经翻了两番,并在持续增长。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
并行计算 C++ 异构计算
Nvidia 并行计算架构 CUDA 分析(一)——CUDA 简介
    CUDA(Compute Unified Device Architecture,统一计算设备架构)是由 NVIDIA 推出的通用并行计算架构,该架构使 GPU 能够解决复杂的计算问题。
4137 0
|
并行计算 芯片 异构计算
《CUDA高性能并行计算》----第2章 CUDA基础知识 2.1 CUDA并行模式
在第1章中我们的讨论以计算从一个参考点到一组输入位置距离的函数distance-Array()结束。这个计算完全是串行的,距离数值是根据一个for循环中的计数i和输入数组的范围顺序计算的。但是,任何一个距离的计算相对于其他计算都是独立的。
1398 0
|
并行计算 Windows
《CUDA高性能并行计算》----0.4 学习CUDA的必备
你需要一台支持CUDA的计算机。这台计算机不需要特别花哨,相当于一台网吧里玩游戏的计算机的配置即可。你还需要某些很容易获得的免费软件。如果你所在的机构已经为你准备好了使用CUDA的全部计算资源,那你就太幸运了,可以马上开工。
1229 0
|
并行计算 C++ Windows
《CUDA高性能并行计算》----0.7 本书代码
本书应用程序的代码可以通过www.cudaforengineers.com获取。虽然书中采用了一些代码片断和“骨架”代码(skeleton code),但标记为“代码清单”的代码(包含行号)是真实可运行代码的一部分。
1982 0
|
并行计算
《CUDA高性能并行计算》----1.4 推荐项目
项目1~5是关于运行其他CUDA样例程序的练习。
1356 0
|
Web App开发 并行计算 异构计算
《CUDA高性能并行计算》----2.4 推荐项目
1.去CUDA Zone注册并加入到CUDA开发者中(如果读者还没有这样做的话)。 2.观看 www.nvidia.com/object/nvision08_gpu_v_cpu.html的视频,体会关于并行和串行执行的有趣的对比。
1833 0
|
并行计算
《CUDA高性能并行计算》----3.6 推荐项目
1.改变距离数组中的元素数目并进行实验。当你将数目N定义成128、1024、63、65的时候是否遇到了一些问题? 2.计算包含4096个距离的距离数组并尝试改变TPB。你可以在系统上运行的最大(和最小)线程块大小是多大?注意,这个问题的答案依赖于你的GPU设备的计算能力。
1338 0
|
存储 并行计算 异构计算
《CUDA高性能并行计算》----3.2 并行化dist_v2
第一个并行化的距离应用``dist_v1_cuda``不具有充分的代表性,因为它并没有涉及大量输入数据。现在我们已经准备好了并行化第二个距离应用``dist_v2``,这是一个更加典型的例子,涉及对一个输入数组的操作。将一个数组数据传递到GPU的策略并不复杂:
1349 0