1. NumPy家族
NumPy是Python科学计算的基础软件包,提供多了维数组对象,多种派生对象(掩码数组、矩阵等)以及用于快速操作数组的函数及API,它包括数学、逻辑、数组形状变换、排序、选择、I/O 、离散傅立叶变换、基本线性代数、基本统计运算、随机模拟等。
NumPy是SciPy家族的成员之一。SciPy家族是一个专门应用于数学、科学和工程领域的开源Python生态圈,其家族成员如上图所示。SciPy家族的核心成员为Matplotlib、SciPy和NumPy,可以概括为MSN这三个字母。
2. NumPy在Python生态圈中的地位
在Python的世界里,没有一个模块能够像NumPy那样支撑并影响着整个生态系统:从科学计算到数据处理,从视觉识别到机器学习,从神经网络到虚拟现实,处处都有它的身影。无论是OpenCV、OpenGL,还是Pandas、Matplotlib,抑或是Scikti-learn、TensorFlow、Keras、Theano、PyTorch,无不依赖于NumPy,尤其是依赖它所创造的数组对象(numpy.ndarray)。在Python生态圈中,NumPy的重要性和普遍性日趋增强。换句话说,为了高效地使用当今机器学习和数据处理等基于Python的工具包,只知道如何使用Python的列表是不够的,还需要熟练使用NumPy数组。
Python生态圈中用于图像视觉处理、2D绘图、3D渲染、数据处理、机器学习等领域比较有名的5个工具模块,都深度依赖NumPy数组。可以说,没有NumPy的基础,任何人都很难用好上述这5个工具库。
OpenCV:目前以人脸识别、自动驾驶等技术为代表的人工智能方兴未艾,其背后的图像和视觉处理,几乎都离不开 OpenCV,而 OpenCV 库中图像的数据结构,从 CV2 之后,全面转向了 NumPy,用 OpenCV 打开图像文件,得到的就是 NumPy 数组
OpenGL:在三维领域大名鼎鼎的OpenGL,更是深度依赖NumPy,如果没有NumPy,我们无法想象如何操作动辄几万、几十万,甚至几百万的顶点数据集
Pandas:这个是当下非常流行的数据分析工具包,相信很多人都是从Pandas开始接触数据处理的,而Pandas整个就是基于NumPy之上的扩展
Matplotlib:作为NumPy生态圈的重要成员,二者关系自然是密不可分的
scikit-learn:机器学习领域应用最广泛的工具包,则是建立在NumPy/SciPy/Matplotlib之上的,同样深度依赖NumPy
3. NumPy的组织架构
NumPy的核心是多维数组类numpy.ndarray,矩阵类numpy.matrix是多维数组类的派生类。以多维数组类为数据组织结构,NumPy提供了众多的数学、科学和工程函数。numpy.core是NumPy的核心,包含ndarray、 ufuncs和dtypes等,numpy.lib提供NumPy的函数。这个两个子模块是私有的,所有的函数和对象都可以在numpy的命名空间中使用,使用时无需使用子模块名。
除了core和lib外,NumPy的其他常用子模块有:
numpy.random :随机抽样子模块
numpy.ma:掩码数组子模块,用于处理包含无效或丢失的数据的数组
numpy.linalg :线性代数子模块
numpy.fft :离散傅里叶变换子模块
numpy.math :由C标准定义的数学函数子模块
numpy.emath :具有自动域的数学函数子模块
numpy.rec :记录数组子模块,数组元素是多个不同类型的数据的组合,类似结构体
numpy.matrixlib :矩阵类和函数子模块
numpy.ctypeslib :ctypes外部函数接口子模块
numpy.polynomial:多项式子模块
numpy.char:向量化字符串操作子模块
numpy.testing :测试支持子模块
今天就介绍到这里。