CuPy:将 NumPy 数组调度到 GPU 上运行

简介: CuPy:将 NumPy 数组调度到 GPU 上运行

提到 Python 的科学计算,必然离不开 NumPy 这个库,但 NumPy 在设计之初没有考虑对 GPU 的支持。正如 NumPy 的作者 Travis Oliphant 所说,如果当时给 NumPy 添加了 GPU 的支持,就没有后来的 Tensorflow、Torch 等深度学习框架什么事了。

但世间没有如果,当时的 NumPy 也不具备支持 GPU 的条件,不过时代已经变了,现在有 CuPy 了。

相信你已经知道 CuPy 是干什么的了,它和 NumPy 一样,都是用来创建数组(矩阵),然后对其进行运算的。但 NumPy 是通过 CPU 来计算的,而 CuPy 通过 GPU 来计算,并且是并行计算。最重要的是,CuPy 和 NumPy 提供的函数基本是一致的,毕竟 CuPy 就是为了让 NumPy 支持 GPU 而设计的。

import numpy as np
import cupy as cp

之前使用 np.xxx(),现在只需要将 np 换成 cp 即可,即 cp.xxx()。

然后还需要说明的是,CuPy 虽然在大型、高维数组/矩阵的计算方面非常非常快,但它在计算之前会涉及 GPU 的初始化,这个过程是需要时间的。因此当你决定使用 CuPy 时,要确保数组的维度和尺寸一定要足够大,不然还不如用 NumPy。

然后要避免 CPU 和 GPU 混合编程,因为数据在 CPU 和 GPU 之间传递等操作非常耗时,比如一会儿 CPU 计算,一会儿 GPU 计算,那么此时用 Cupy 反而会降低效率。

好,下面就来安装 CuPy。

首先你要去 https://developer.nvidia.cn/cuda-downloads 下载 CUDA 工具包,我这里下载的是最新版 12.2,操作系统是 Windows。

b0f95b04e8e9d6fa58471f654b3327e6.png

安装包大小是 3 个 G,下载完毕之后直接双击安装即可。但是注意:在安装的时候,要确保你的主机已经配备了 NVIDIA 显卡,无论是新款的 40 系,还是以前的 30 系、20 系等等都是可以的。

安装完之后,你的 C 盘应该会有这个目录:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.2

8c39a2d91eec1c9307a3950852a3e79b.png

于我安装的 CUDA 工具包是 12.2 版本,所以路径的最后一个子目录是 v12.2,如果安装的是其它版本,比如 11.0,那么目录就是 v11.0。然后我们将该路径设置成环境变量,变量名称为 CUDA_HOME。

db46e1d38c3ad86dacddc6ce8f972a72.png

到此我们的准备工作就算完成了,然后正式安装 CuPy,而安装有两种方式。第一种是 pip install cupy,该方式安装的 CuPy 不依赖特定的 CUDA 版本,属于通用 CuPy。第二种是安装针对特定 CUDA 版本的 CuPy,我当前采用的是第二种。

eb62194821172481316e3e1d45aa7c30.png

我安装的 CUDA 版本是 12.2,所以安装命令是 pip install cupy-cuda12x。然后测试一下能不能用:

17a292a530320be805ff9415fb89638c.png

程序正常执行,说明 CuPy 安装成功,而且我们看到两者之间的计算速度真的是天壤之别,使用 GPU 快的太多了。

然后怎么学习 CuPy 呢?其实很简单,学习 NumPy,如果你会 NumPy,那么 CuPy 自然就会了。

import numpy as np
import cupy as cp
print(np.array([]).__class__)
print(cp.array([]).__class__)
"""
<class 'numpy.ndarray'>
<class 'cupy.ndarray'>
"""
np_arr = np.arange(1, 10)
cp_arr = cp.arange(1, 10)
print(np_arr)  # [1 2 3 4 5 6 7 8 9]
print(cp_arr)  # [1 2 3 4 5 6 7 8 9]

两者的类型都是 ndarray,所拥有的方法、一致模块提供的功能函数也是一致的。

如果你觉得 NumPy 的速度不够,那么就试试 CuPy 吧。

相关文章
|
21天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
17天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2564 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
15天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
13天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
17天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1556 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
19天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
829 14
|
14天前
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
621 7
|
8天前
|
Docker 容器
Docker操作 (五)
Docker操作 (五)
170 69
|
8天前
|
Docker 容器
Docker操作 (三)
Docker操作 (三)
167 69
|
19天前
|
人工智能 自动驾驶 机器人
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。
629 53
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界