GPU 硬件与 CUDA 程序开发工具

简介: GPU 硬件与 CUDA 程序开发工具

GPU 硬件简介

从十多年前起,GPU 的浮点数运算峰值就比同时期的 CPU 高一个量级;GPU 的内存带宽峰值也比同时期的 CPU 高一个量级。

CPU 和 GPU 的显著区别是:一个典型的 CPU 拥有少数几个快速的计算核心,而一个典型的 GPU 拥有几百到几千个不那么快速的计算核心。CPU 中有更多的晶体管用于数据缓存和流程控制,但 GPU 中有更多的晶体管用于算术逻辑单元。

所以,GPU 是靠众多的计算核心来获得相对较高的计算性能的。图 1.1 形象地说明了(非集成) GPU 和 CPU 在硬件架构上的显著区别。

GPU 计算不是指单独的 GPU 计算,而是指 CPU + GPU 的异构(heterogeneous)计算。

一块单独的 GPU 是无法独立地完成所有计算任务的,它必须在 CPU 的调度下才能完成特定任务。在由 CPU 和 GPU 构成的异构计算平台中,通常将起控制作用的 CPU 称为主机(host),将起加速作用的 GPU 称为设备(device)。主机和(非集成)设备都有自己的 DRAM(dynamic random-access memory,动态随机存取内存),它们之间一般由 PCIe 总线(peripheral component interconnect express bus)连接,如图 1.1 所示。

本书中说的 GPU 都是指英伟达(Nvidia)公司推出的 GPU,因为 CUDA 编程目前只支持该公司的 GPU。以下几个系列的 GPU 都支持 CUDA 编程:

  • • Tesla 系列:其中的内存为纠错内存(error-correcting code memory,ECC 内存),稳定性好,主要用于高性能、高强度的科学计算。
  • • Quadro 系列:支持高速 OpenGL 渲染,主要用于专业绘图设计。
  • • GeForce 系列:主要用于游戏与娱乐,但也常用于科学计算。GeForce 系列的 GPU 没有纠错内存,用于科学计算时具有一定的风险。然而,GeForce 系列的 GPU 价格相对低廉、性价比高,用于学习 CUDA 编程是没有任何问题的。即使是便携式计算机中 GeForce 系列的 GPU 也可以用来学习 CUDA 编程。
  • • Jetson 系列:嵌入式设备中的 GPU。作者对此无使用经验,本书也不专门讨论。

每一款 GPU 都有一个用以表示其“计算能力”(compute capability)的版本号。该版本号可以写为形如 X.Y 的形式。其中,X 表示主版本号,Y 表示次版本号。版本号决定了 GPU 硬件所支持的功能,可为应用程序在运行时判断硬件特征提供依据。

初学者往往误以为 GPU 的计算能力越高,性能就越高,但后面我们会看到,计算能力和性能没有简单的正比关系

CUDA 程序开发工具

CUDA 编程语言最初主要是基于 C 语言的,但目前越来越多地支持 C++ 语言。还有基于 Fortran 的 CUDA Fortran 版本及由其他编程语言包装的 CUDA 版本,但本书只涉及基于 C++ 的 CUDA 编程。我们称基于 C++ 的 CUDA 编程语言为 CUDA C++。

对 Fortran 版本感兴趣的读者可以参考网站 https://www.pgroup.com/。用户可以免费下载支持 CUDAFortran 编程的 PGI 开发工具套装的社区版本(Community Edition)。对应的还有收费的专业版本(Professional Edition)。PGI 是高性能计算编译器公司 Portland Group, Inc. 的简称,已被英伟达公司收购。

CUDA 提供了两层 API(Application Programming Interface,应用程序编程接口)给程序员使用,即 CUDA 驱动(driver)API 和 CUDA 运行时(runtime)API。

  • 其中,CUDA 驱动 API 是更加底层的 API,它为程序员提供了更为灵活的编程接口;
  • CUDA 运行时 API 是在 CUDA 驱动 API 的基础上构建的一个更为高级的 API,更容易使用。

这两种 API 在性能上几乎没有差别。从程序的可读性来看,使用 CUDA 运行时 API 是更好的选择。在其他编程语言中使用 CUDA 的时候,驱动 API 很多时候是必需的。因为作者没有使用驱动 API 的经验,故本书只涉及 CUDA 运行时 API

图 1.2 展示了 CUDA 开发环境的主要组件。开发的应用程序是以主机(CPU)为出发点的。

应用程序可以调用 CUDA 运行时 API、CUDA 驱动 API 及一些已有的 CUDA 库。所有这些调用都将利用设备(GPU)的硬件资源。

对 CUDA 运行时 API 的介绍是本书大部分章节的重点内容;第 14 章将介绍若干常用的 CUDA 库。

CUDA 版本也由形如 X.Y 的两个数字表示,但它并不等同于 GPU 的计算能力。

可以这样理解:CUDA 版本是 GPU 软件开发平台的版本,而计算能力对应着 GPU 硬件架构的版本。

CUDA 开发环境搭建示例

我们说过,GPU 计算实际上是 CPU+GPU(主机 + 设备)的异构计算。在 CUDA C++ 程序中,既有运行于主机的代码,也有运行于设备的代码。

其中,运行于主机的代码需要由主机的 C++ 编译器编译和链接。

所以,除了安装 CUDA 工具箱,还需要安装一个主机的 C++ 编译器。在 Windows 中,最常用的 C++ 编译器是 Microsoft Visual C++ (MSVC),它目前集成在 Visual Studio 中,所以我们首先安装 Visual Studio

作者安装了最高版本的 Visual Studio 2019 16.x。因为这是个人使用的,故选择了免费的 Community 版本。下载地址为https://visualstudio.microsoft.com/free-developer-offers/。对于 CUDA C++ 程序开发来说,只需要选择安装 Desktop development with C++ 即可。当然,读者也可以选择安装更多的组件。

关于 CUDA,作者选择安装 2019 年 8 月发布的 CUDA Toolkit 10.1 update2。首先,进入网址 https://developer.nvidia.com/cuda-10.1-download-archive-update2

然后根据提示,做如下选择:Operating System 项选择 Windows;Architecture 项选择 x86_64;Version 项选择操作系统版本,我们这里是 10;Installer Type 项可以选择 exe (network) 或者 exe (local),分别代表一边下载一边安装和下载完毕后安装。

接着,运行安装程序,根据提示一步一步安装即可。该版本的 CUDA 工具箱包含一个对应版本的 Nvidia driver,故不需要再单独安装 Nvidia driver。

安装好 Visual Studio 和 CUDA 后,进入到如下目录(读者如果找不到 C 盘下的 ProgramData 目录,可能是因为没有选择显示一些隐藏的文件):

C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.1\1_Utilities\deviceQuery

然后,用 Visual Studio 2019 打开文件 deviceQuery_vs2019.sln。接下来,编译(构建)、运行。若输出内容的最后部分为 Result = PASS,则说明已经搭建好 Windows 中的 CUDA 开发环境。若有疑问,请参阅 Nvidia 的官方文档:https://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows

在上面的测试中,我们是直接用 Visual Studio 打开一个已有的解决方案(solution),然后直接构建并运行。本书不介绍 Visual Studio 的使用,而是选择用命令行解释器编译与运行程序。

这里的命令行解释器指的是 Linux 中的 terminal 或者 Windows 中的 command prompt 程序。

在 Windows 中使用 MSVC 作为 C++ 程序的编译器时,需要单独设置相应的环境变量,或者从 Windows 的开始(start)菜单中找到 Visual Studio 2019 文件夹,然后单击其中的“x64 Native Tools Command Prompt for VS 2019”,而从打开一个加载了 MSVC 环境变量的命令行解释器。

在本书的某些章节,需要有管理员的权限来使用 nvprof 性能分析器。此时,可以右击“x64 Native Tools Command Prompt for VS 2019”,然后选择“更多”,接着选择“以管理员身份运行”。

用命令行解释器编译与运行 CUDA 程序的方式在 Windows 和 Linux 系统几乎没有区别,但为了简洁起见,本书后面主要以 Linux 开发环境为例进行讲解。虽然如此,Windows 和 Linux 中的 CUDA 编程功能还是稍有差别。我们将在后续章节中适当的地方指出这些差别。

用 nvidia-smi 检查与设置设备

可以通过 nvidia-smi(Nvidia’s system management interface)程序检查与设置设备。

它包含在 CUDA 开发工具套装内。该程序最基本的用法就是在命令行解释器中使用不带任何参数的命令 nvidia-smi。

在作者的计算机中使用该命令,得到如下文本形式的输出:

从中可以看出一些比较有用的信息:

  • • 第一行可以看到 Nvidia driver 的版本及 CUDA 工具箱的版本。
  • • 作者所用计算机中有一型号为 GeForce RTX 2070 的 GPU。该 GPU 的设备号是 0。该计算机仅有一个 GPU。如果有多个 GPU,会将各个 GPU 从 0 开始编号。如果读者的系统中有多个 GPU,而且只需要使用某个特定的 GPU(比如两个之中更强大的那个),则可以通过设置环境变量 CUDA_VISIBLE_DEVICES 的值在运行 CUDA 程序之前选定一个 GPU。假如读者的系统中有编号为 0 和 1 的两个 GPU,而读者想在 1 号 GPU 运行 CUDA 程序,则可以用如下命令设置环境变量:

$ export CUDA_VISIBLE_DEVICES=1

这样设置的环境变量在当前 shell session 及其子进程中有效
  • • 该 GPU 处于 WDDM(windows display driver model )模式。另一个可能的模式是 TCC(tesla compute cluster),但它仅在 Tesla、Quadro 和 Titan 系列的 GPU 中可选。可用如下方式选择(在 Windows 中需要用管理员身份打开 Command Prompt 并去掉命令中的 sudo):

$ sudo nvidia-smi -g GPU_ID -dm 0 # 设置为 WDDM 模式

$ sudo nvidia-smi -g GPU_ID -dm 1 # 设置为 TCC 模式

这里,GPU_ID 是 GPU 的编号。
  • • 该 GPU 当前的温度为 38 摄氏度。GPU 在满负荷运行时,温度会高一些。
  • • 这是 GeForce 系列的 GPU,没有 ECC 内存,故 Uncorr. ECC 为 N/A,代表不适用(not applicable)或者不存在(not available)。
  • • Compute M. 指计算模式(compute mode)。该 GPU 的计算模式是 Default。在默认模式中,同一个 GPU 中允许存在多个计算进程,但每个计算进程对应程序的运行速度一般来说会降低。还有一种模式为 E. Process,指的是独占进程模式(exclusive processmode),但不适用于处于 WDDM 模式的 GPU。在独占进程模式下,只能运行一个计算进程独占该 GPU。可以用如下命令设置计算模式(在 Windows 中需要用管理员身份打开 Command Prompt 并去掉命令中的 sudo):

$ sudo nvidia-smi -i GPU_ID -c 0 # 默认模式

$ sudo nvidia-smi -i GPU_ID -c 1 # 独占进程模式

这里,-i GPU_ID 的意思是希望该设置仅仅作用于编号为 GPU_ID 的 GPU;如果去掉该选项,该设置将会作用于系统中所有的 GPU。


相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
3月前
|
人工智能 并行计算 PyTorch
以Lama Cleaner的AI去水印工具理解人工智能中经常会用到GPU来计算的CUDA是什么? 优雅草-卓伊凡
以Lama Cleaner的AI去水印工具理解人工智能中经常会用到GPU来计算的CUDA是什么? 优雅草-卓伊凡
331 4
|
9月前
|
缓存 并行计算 PyTorch
PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制
本文深入探讨了PyTorch中GPU内存管理的核心机制,特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因,并通过实际案例(如Llama 1B模型训练)展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术,显著提升了内存使用效率,减少了系统调用开销。此外,文章还介绍了高级优化方法,包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。
1840 0
|
8月前
|
人工智能 并行计算 开发者
CUDA重大更新:原生Python可直接编写高性能GPU程序
NVIDIA在2025年GTC大会上宣布CUDA并行计算平台正式支持原生Python编程,消除了Python开发者进入GPU加速领域的技术壁垒。这一突破通过重新设计CUDA开发模型,引入CUDA Core、cuPyNumeric、NVMath Python等核心组件,实现了Python与GPU加速的深度集成。开发者可直接用Python语法进行高性能并行计算,显著降低门槛,扩展CUDA生态,推动人工智能、科学计算等领域创新。此更新标志着CUDA向更包容的语言生态系统转型,未来还将支持Rust、Julia等语言。
632 3
CUDA重大更新:原生Python可直接编写高性能GPU程序
|
11月前
|
人工智能 Linux iOS开发
exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型
exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。
2745 101
|
人工智能 文字识别 异构计算
NVIDIA-Ingest:英伟达开源智能文档提取及结构化工具,支持 GPU 加速和并行处理
NVIDIA-Ingest 是英伟达开源的智能文档提取工具,支持 PDF、Word、PPT 等多种格式,提供并行处理和 GPU 加速,适用于企业内容管理和生成式应用。
592 18
NVIDIA-Ingest:英伟达开源智能文档提取及结构化工具,支持 GPU 加速和并行处理
|
人工智能 并行计算 流计算
【AI系统】GPU 架构与 CUDA 关系
本文介绍了英伟达GPU硬件基础概念,重点解析了A100 GPU架构中的GPC、TPC、SM等组件及其功能。接着深入讲解了CUDA并行计算平台和编程模型,特别是CUDA线程层次结构。最后,文章探讨了如何根据CUDA核心数量、核心频率等因素计算GPU的算力峰值,这对于评估大模型训练的算力需求至关重要。
1175 3
|
存储 并行计算 算法
CUDA统一内存:简化GPU编程的内存管理
在GPU编程中,内存管理是关键挑战之一。NVIDIA CUDA 6.0引入了统一内存,简化了CPU与GPU之间的数据传输。统一内存允许在单个地址空间内分配可被两者访问的内存,自动迁移数据,从而简化内存管理、提高性能并增强代码可扩展性。本文将详细介绍统一内存的工作原理、优势及其使用方法,帮助开发者更高效地开发CUDA应用程序。
|
机器学习/深度学习 并行计算 PyTorch
GPU 加速与 PyTorch:最大化硬件性能提升训练速度
【8月更文第29天】GPU(图形处理单元)因其并行计算能力而成为深度学习领域的重要组成部分。本文将介绍如何利用PyTorch来高效地利用GPU进行深度学习模型的训练,从而最大化训练速度。我们将讨论如何配置环境、选择合适的硬件、编写高效的代码以及利用高级特性来提高性能。
2440 1
|
机器学习/深度学习 并行计算 算法框架/工具
Anaconda+Cuda+Cudnn+Pytorch(GPU版)+Pycharm+Win11深度学习环境配置
Anaconda+Cuda+Cudnn+Pytorch(GPU版)+Pycharm+Win11深度学习环境配置
|
3月前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
364 1

热门文章

最新文章