Python数据分析之numpy数组全解析

简介: Python数据分析之numpy数组全解析

什么是numpy


numpy是一个在Python中做科学计算的基础库,重在数值计算,也是大部分Python科学计算库的基础库,多用于大型、多维数据上执行数值计算。


在NumPy 中,最重要的对象是称为 ndarray 的N维数组类型,它是描述相同类型的元素集合,numpy所有功能几乎都以ndarray为核心展开。ndarray 中的每个元素都是数据类型对象(dtype)的对象。ndarray 中的每个元素在内存中使用相同大小的块


numpy数组创建


创建Numpy数组一般有三种方法:


(1)通过传入可待跌对象创建,我将之称为基本方法


(2)使用Numpy内部功能函数,内部方法


(3)使用特殊的库函数,特殊方法


基本方法:np.array()基本方法是通过给numpy提供的一些函数中传入可迭代对象来创建数组,这种方法通常是在已知所有元素的情况下使用。numpy中实现这种功能的函数包括:np.array()、np.arange()、np.line(),:

np.array([0, 1, 2, 3, 4]) # 接收一个list作为参数
array([0, 1, 2, 3, 4])
>>> np.array([[11, 12, 13],[21, 22, 23]]) # 创建一个2*3的数组
array([[11, 12, 13],
[21, 22, 23]])
>>> np.array((0, 1, 2, 3, 4)) # 接收一个tuple作为参数
array([0, 1, 2, 3, 4])
np.array()方法可以在创建数组的同时指定数据类型:
>>> np.array([0, 1, 2, 3, 4], dtype=float)
array([0., 1., 2., 3., 4.])


甚至还可以接受range()返回的可迭代对象作为参数:


>>> np.array(range(5))
array([0, 1, 2, 3, 4])
>>> np.array(range(10, 20, 2))
array([10, 12, 14, 16, 18])


通用方法:np.ones()、np.zeros()、np.eye()


通用方法指的是numpy中提供的arange()、ones()、zeros()、eye()、full()等方法,这些方法可以按照某种规则生成一个数组,并不需要传入已知的可迭代对象。


(1)np.arange()


上面我们将range()函数结果传递给np.array(),np.arange()实现的就是这个功能,所以说,np.arange()就是numpy中的range()方法。


>>> np.arange(5)
array([0, 1, 2, 3, 4])
>>> np.arange(10, 20, 2)
array([10, 12, 14, 16, 18])
(2)np.linspace()


np.linspace()方法以等间距的形式对给定的两数进行划分来创建数组:


>>> np.linspace(10, 20, 5) # 将10到20间的数等距取5个
array([10. , 12.5, 15. , 17.5, 20. ])


(3)np.ones()

创建一个元素值全为1的数组,接收一个list或者tuple作为参数


>>> np.ones([2]) # 创建一个一维数组
array([1., 1.])
>>> np.ones([2, 2]) # 创建一个2维数组
array([[1., 1.],
[1., 1.]])
>>> np.ones([2, 2, 2])
array([[[1., 1.],
[1., 1.]],
[[1., 1.],
[1., 1.]]])


(4)np.zeros()


创建一个元素值全为0的数组,接收一个list或者tuple作为参数


>>> np.zeros([3])
array([0., 0., 0.])
>>> np.zeros([3, 3])
array([[0., 0., 0.],
[0., 0., 0.],
[0., 0., 0.]])


(5)np.random.random()


创建一个元素为0到1之间随机数的数组,接收一个list或者tuple作为参数:


>>> np.random.random((3, 3))
array([[0.19414645, 0.2306415 , 0.08072019],
[0.68814308, 0.48019088, 0.61438206],
[0.5361477 , 0.33779769, 0.38549407]])


既然有random()方法,那么就会有randint()方法,也就是取随机整数的方法,不过这个randint()方法参数形式更random()不太一样,具体请看下面实例:



>>> np.random.randint(1, 10, 3) # 从1到10之间随机取3个整数创建数组
array([6, 4, 6])


(6)np.eye()


创建一个从左上角到右下角的对角线上全为1,其余元素全为0的数组(单位矩阵)。注意,np.eye()的参数可不再是list或者tuple了。


>>> np.eye(3, 3)
array([[1., 0., 0.],
[0., 1., 0.],
[0., 0., 1.]])


(7) np.full()


np.full()函数可以创建一个填充给定数值的数组,第一个参数是定义数组形状的list或tuple,第2个参数是需要填充的数值:


>>> np.full((2, 3), 3) # 创建一个2*3的数组,
所有元素都填充3array([[3
, 3, 3],[3, 3, 3]])


读取外部数据


numpy也支持从外部读取数据来创建数组,例如从硬盘中读取csv、txt等文件来创建数组。np.genfromtxt()是numpy中读取文件的一个方法,例如在当前目录下有一个data.csv文件,文件内容为:


id,height,length
1,100,101
2,200,230
3,300,350


通过numpy读取:


>>> np.genfromtxt('data.csv',delimiter=',',skip_header=1)
array([[ 1., 100., 101.],
[ 2., 200., 230.],
[ 3., 300., 350.]])


读取外部数据的方法不止np.genfromtxt(),还有np.load(等,但numpy读取外部数据的应用情况其实并不多,这里不再细说。


numpy中数组的数据类型


作为一个强大的科学计算库,numpy中支持的数据类型远不止Python原生的几种数据类型。如下所示为numpy中支持的数据类型:


640.jpg


这些数据类型可以通过如np.bool_、np.float16等形式来调用,上文中提到过,创建数组时可以指定数据类型:



>>> a = np.array([0, 1, 0, 1], dtype=np.bool_)
>>> a
array([False, True, False, True])


可以通过numpy数组自带的dtype属性来查看数组的数据类型:


>>> a.dtype
dtype('bool')



为什么输出的类型是bool而不是bool_呢?因为numpy中后缀带下划线“_”的数据类型指向的就是Python原生的数据类型,也就是说,np.bool_与Python中的bool数据类型等效,np.float_与Python中的float类型等效。


当一个数组已经被创建,但是想要改变其数据类型,那就可以通过np.asdtype()方法:


>>> a.astype(np.int)array([0, 1, 0, 1])>>> a = np.random.random((2,2))>>> aarray([[0.02914317, 0.645534 ],[0.61839509, 0.64155607]])>>> a.dtypedtype('float64')>>> a.astype(np.float16)array([[0.02914, 0.6455 ],[0.618 , 0.6416 ]], dtype=float16)>>> a.dtypedtype('float64')

numpy中数组的形状

numpy中数组使用与存放多维数据,所以,所谓数组的形状指的就是数据的维度大小,以及每一维度元素个数。我们可以通过数组自带的shape属性来查看形状信息:


>>> a.astype(np.int)
array([0, 1, 0, 1])
>>> a = np.random.random((2,2))
>>> a
array([[0.02914317, 0.645534 ],
[0.61839509, 0.64155607]])
>>> a.dtype
dtype('float64')
>>> a.astype(np.float16)
array([[0.02914, 0.6455 ],
[0.618 , 0.6416 ]], dtype=float16)
>>> a.dtype
dtype('float64')


可以看到,查看形状属性时返回的是一个元组,元素的长度代表数组的维度,元组每一个属性代表对应的维度的元素个数,(2,3)就表示第一个维度元素个数是2(两行),第二个维度长度是3(3列)。


在数组创建之后,数组的形状也是可以改变的。改变数组的形状通过数组的reshape()方法:


>>> a = np.ones((2, 12))
>>> a
array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])
>>> a.shape
(2, 12)
>>> b = a.reshape(2, 3, 4)
>>> b
array([[[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]],
[[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]]])
>>> b.shape
(2, 3, 4)
>>> b = a.reshape((2,3,4)) # 元组作为参数
>>> b
array([[[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]],
[[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]]])
>>> b.shape


可以看到,np.reshape()方法可以同时传入多个描述形状的数字,也可以传入一个数组,当然,如果将形状改变为一维数组时,必须传入的是元组。另外需要注意,传入reshape方法的多个参数的乘积必须与改变前数组总长度相等,否则会报错。

numpy数组中专门提供了一个方法加你个数组转换为以为数组,那就是flatten()方法,这个方法在执行数组运算是非常有用:

>>> a = np.ones((2, 3))
>>> b = a.flatten()
>>> b
array([1., 1., 1., 1., 1., 1.])
>>> b.shape
(6,)


索引与切片


对数据使用时,不可避免要进行索引和切片,numpy在这一方面不可谓不强大。numpy数组中所有的索引都是从0开始的,我们可以根据索引来精确取数据。


按索引取值下面所有实例都已下方数组a来展开:


>>> a = np.arange(36).reshape((4, 9))
>>> a
array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8],
[ 9, 10, 11, 12, 13, 14, 15, 16, 17],
[18, 19, 20, 21, 22, 23, 24, 25, 26],
[27, 28, 29, 30, 31, 32, 33, 34, 35]])


(1)取一行


>>> a[1] # 取第二行数据
array([ 9, 10, 11, 12, 13, 14, 15, 16, 17])


(2)取连续多行数据


>>> a[:2] # 取前两行数据
array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8],
[ 9, 10, 11, 12, 13, 14, 15, 16, 17]])


也可以加上步长:


>>> a[::2] # 每隔一行取一次
array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8],
[18, 19, 20, 21, 22, 23, 24, 25, 26]])
>>> a[1:] # 取第2行后面所有行
array([[ 9, 10, 11, 12, 13, 14, 15, 16, 17],
[18, 19, 20, 21, 22, 23, 24, 25, 26],
[27, 28, 29, 30, 31, 32, 33, 34, 35]])


(3)取不连续多行数据


>>> a[[0,-1]] # 取第一行和最后一行
>>> a[[0,-1]]
array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8],
[27, 28, 29, 30, 31, 32, 33, 34, 35]])


可以看到,对numpy根据索引进行取值的方法与Python中list索引取值方法类似,都是通过方括号里面传入索引取值,当需要对多维进行索引时,每一位数据之间用逗号隔开。


(4)取一列


>>> a[:,1] # 取第2列
array([ 1, 10, 19, 28])


(5)取连续多列


>>> a[:,1:3] # 取第2列到第3列
array([[ 1, 2],
[10, 11],
[19, 20],
[28, 29]])


(6)取不连续多列


>>> a[:,[0,3]] # 取第1列和第4列
array([[ 0, 3],
[ 9, 12],
[18, 21],
[27, 30]]))


(7)取连续多行多列


>>> a[1:3:,1:3] # 取第2、3行中的第2、3列
array([[10, 11],
[19, 20]])


(8)取多个不连续位置数据


看到这里你应该也明白了取行、取列的规律了,如果取不连续的多行多列呢?例如取第1、3行与第2、4列,你可能认为是a[[0, 2], [1, 3]],我们来看看:



>>> a[[0, 2], [1, 3]]
array([ 1, 21])


可见,返回的并不是预期的数据,而是第1行第2列、第3行第4列的数据,也就是(0,1)和(2,3)位置的数据。


从而我们可以得出结论,如果取第3行中第3列、第5列,第4行中第1列、第7列数据方法如下:

>>> a[[2,2,3,3],[2,4,0,6]] # 第3行中第3列、第5列,第4行中第1列、第7列数据
array([20, 22, 27, 33])


(9)取单个数据


>>> b = a[3,3]
>>> b
30
>>> type(b) # 取单个类型是返回的就是一个确切的numpy类型数值
<class 'numpy.int64'>


bool索引


(1)bool索引取值


numpy中提供了一些通用函数来实现通过bool条件判断实现按条件取值,使用这些通用方法,与使用对应的符号时等效的,符号与numpy通用方法对应关系如下:

运算符 对应的通用函数


==  np.equal
!=  np.not_equal
< np.less
<=  np.less_equal
> np.greater
>=  np.greater_equal


我们通过实例感受一下:


>>> a = np.arange(24).reshape((4,6))
>>> a
array([[ 0, 1, 2, 3, 4, 5],
[ 6, 7, 8, 9, 10, 11],
[12, 13, 14, 15, 16, 17],
[18, 19, 20, 21, 22, 23]])
>>> b = a<5 # bool索引选取
>>> b
array([[ True, True, True, True, True, False],
[False, False, False, False, False, False],
[False, False, False, False, False, False],
[False, False, False, False, False, False]])


可以看到,在元素值小于5的位置上值为True,不满足条件的为False。

也可以使用通用函数实现:


>>> b = np.less(a,5) # 通用函数选取
>>> b
array([[ True, True, True, True, True, False],
[False, False, False, False, False, False],
[False, False, False, False, False, False],
[False, False, False, False, False, False]])


对bool索引选取出来的结果全是True或者False,可能不是你想要的,可以进一步使用:


>>> a[b]
array([0, 1, 2, 3, 4])


所以我们可以直接刷选值:


>>> a[a<5]
array([0, 1, 2, 3, 4])


(2)三目元算


numpy中提供了一个where()方法来实现三目运算。where()方法接受三个参数,第一个参数是判断条件,第二个参数时时判断条件为真时数组中满足条件的元素将要替换的值,第三个参数是判断调价为假时不满足条件元素将要替换的值。

例如,将数组中所有满足元素值小于5的数值替换为0,不满足的元素值替换为1:


>>> a = np.arange(24).reshape((4,6))
>>> a
array([[ 0, 1, 2, 3, 4, 5],
[ 6, 7, 8, 9, 10, 11],
[12, 13, 14, 15, 16, 17],
[18, 19, 20, 21, 22, 23]])
>>> np.where(a<5, 0, 1) # 三目运算
array([[0, 0, 0, 0, 0, 1],
[1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1]])


umpy中赋值、视图、深复制


(1)赋值


当对numpy数组进行赋值时,只是对同一个对象新建了一个引用,并不是建立新的对象,所以赋值前后的变量完全是同一对象,对其中一个引用修改时,所有引用都会生效:


>>> a = np.arange(12)
>>> b = a # 赋值
>>> a is b
True
>>> b.shape = (3, 4)
>>> b
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
>>> a
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])


(2)视图(切片、浅复制)


numpy中允许不同数组间共享数据,这种机制在numpy中称为视图,对numpy数组的切片和浅复制都是通过视图实现的。如果数组B是数组A的视图(view),则称A为B的base(除非A也是视图)。视图数组中的数据实际上保存在base数组中。


>>> a = np.arange(12)
>>> b = a.view() # 使用视图
>>> a is b
False
>>> b
array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
>>> b.shape = (3, 4) # 改变b的形状
>>> a
array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
>>> b
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
>>> b[0] = 0
>>> a
array([ 0, 0, 0, 0, 4, 5, 6, 7, 8, 9, 10, 11])
>>> b
array([[ 0, 0, 0, 0],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])


从上面代码中我们可以发现,a和b是不同的两个数组,改变b的形状对a不会有影响,但是改变b的数据之后,a的数据也会发现改变,说明a与b是共享数据的。


再来探索一些切片:


>>> a = np.arange(12)
>>> b = a[:] # 切片
>>> a is b
False
>>> b.shape = (3, 4)
>>> a
array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
>>> b
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
>>> b[0] = 0
>>> a
array([ 0, 0, 0, 0, 4, 5, 6, 7, 8, 9, 10, 11])
>>> b
array([[ 0, 0, 0, 0],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])


果然,切片效果与视图一致。


(3)深复制


深复制通过数组自带的copy()方法实现,深复制产生的数组与原数组时完全不同的两个数组对象,完全享有独立的内存空间,所有操作都不会相互影响。


>>> a = np.arange(12)
>>> b = a.copy()
>>> a is b
False
>>> b.shape = (3, 4)
>>> b[0] = 0
>>> a
array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
>>> b
array([[ 0, 0, 0, 0],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
相关文章
|
1月前
|
存储 Java 数据处理
(numpy)Python做数据处理必备框架!(一):认识numpy;从概念层面开始学习ndarray数组:形状、数组转置、数值范围、矩阵...
Numpy是什么? numpy是Python中科学计算的基础包。 它是一个Python库,提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于对数组进行快速操作的各种方法,包括数学、逻辑、形状操作、排序、选择、I/0 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。 Numpy能做什么? numpy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成由C、C++
292 0
|
1月前
|
Java 数据处理 索引
(numpy)Python做数据处理必备框架!(二):ndarray切片的使用与运算;常见的ndarray函数:平方根、正余弦、自然对数、指数、幂等运算;统计函数:方差、均值、极差;比较函数...
ndarray切片 索引从0开始 索引/切片类型 描述/用法 基本索引 通过整数索引直接访问元素。 行/列切片 使用冒号:切片语法选择行或列的子集 连续切片 从起始索引到结束索引按步长切片 使用slice函数 通过slice(start,stop,strp)定义切片规则 布尔索引 通过布尔条件筛选满足条件的元素。支持逻辑运算符 &、|。
143 0
|
4月前
|
数据采集 数据可视化 搜索推荐
Python数据分析全流程指南:从数据采集到可视化呈现的实战解析
在数字化转型中,数据分析成为企业决策核心,而Python凭借其强大生态和简洁语法成为首选工具。本文通过实战案例详解数据分析全流程,涵盖数据采集、清洗、探索、建模、可视化及自动化部署,帮助读者掌握从数据到业务价值的完整技能链。
560 0
|
3月前
|
机器学习/深度学习 API 异构计算
JAX快速上手:从NumPy到GPU加速的Python高性能计算库入门教程
JAX是Google开发的高性能数值计算库,旨在解决NumPy在现代计算需求下的局限性。它不仅兼容NumPy的API,还引入了自动微分、GPU/TPU加速和即时编译(JIT)等关键功能,显著提升了计算效率。JAX适用于机器学习、科学模拟等需要大规模计算和梯度优化的场景,为Python在高性能计算领域开辟了新路径。
347 0
JAX快速上手:从NumPy到GPU加速的Python高性能计算库入门教程
|
3月前
|
存储 数据采集 数据处理
Pandas与NumPy:Python数据处理的双剑合璧
Pandas与NumPy是Python数据科学的核心工具。NumPy以高效的多维数组支持数值计算,适用于大规模矩阵运算;Pandas则提供灵活的DataFrame结构,擅长处理表格型数据与缺失值。二者在性能与功能上各具优势,协同构建现代数据分析的技术基石。
338 0
|
12月前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
1075 4
数据分析的 10 个最佳 Python 库
|
11月前
|
计算机视觉 Python
PIL图像转换为Numpy数组:技术与案例详解
本文介绍了如何将PIL图像转换为Numpy数组,以便利用Numpy进行数学运算和向量化操作。首先简要介绍了PIL和Numpy的基本功能,然后详细说明了转换过程,包括导入库、打开图像文件、使用`np.array()`或`np.asarray()`函数进行转换,并通过打印数组形状验证转换结果。最后,通过裁剪、旋转和缩放等案例展示了转换后的应用,以及如何将Numpy数组转换回PIL图像。此外,还介绍了处理base64编码图像的完整流程。
428 4
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
276 2
|
数据采集 数据可视化 数据处理
如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`)
本文介绍了如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`),加载历史数据,计算均线和其他技术指标,实现交易逻辑,记录和可视化交易结果。示例代码展示了如何根据均线交叉和价格条件进行开仓、止损和止盈操作。实际应用时需注意数据质量、交易成本和风险管理。
621 5
|
存储 数据处理 Python
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第27天】在科学计算和数据分析领域,Python凭借简洁的语法和强大的库支持广受欢迎。NumPy和SciPy作为Python科学计算的两大基石,提供了高效的数据处理和分析工具。NumPy的核心功能是N维数组对象(ndarray),支持高效的大型数据集操作;SciPy则在此基础上提供了线性代数、信号处理、优化和统计分析等多种科学计算工具。结合使用NumPy和SciPy,可以显著提升数据处理和分析的效率,使Python成为科学计算和数据分析的首选语言。
300 3

推荐镜像

更多
下一篇
oss云网关配置