18. Python 数据处理之 Numpy

简介: 18. Python 数据处理之 Numpy

1. 简介

数据分析的流程概括起来主要是:读写、处理计算、分析建模和可视化4个部分。

Numpy 是Python 进行科学计算,数据分析时,所用到的一个基础库。它是大量Python数据和科学计算包的基础,如Pandas库就用到了Numpy。

Numpy(Numerical Python)是Python的一个扩展程序库,支持大量的维度数组与矩阵运算,此外,针对数组运算也可以提供大量的数据函数库。

Numpy 是一个运行速度非常快的数学库,主要用于数组计算,包括以下方面:

  • 一个强大的N维数组对象ndarray。
  • 广播功能函数。
  • 整合C/C++/Fortran代码的工具。
  • 线性代数、傅立叶变换、随机数生成功能。

Numpy 通常与 Scipy(Scientific Python)和 Matplotlib(绘图库)一起使用,这种组合广泛用于替代MatLab,是一个强大的科学计算环境,有助于通过Python学习数据科学或者机器学习。

2. 安装和导入Numpy

安装、导入和使用Numpy:

# 安装Numpy
'''Windows 按住win+R 输入 cmd,Mac 打开Terminal
pip install numpy 
'''
import numpy as np # 导入numpy并取别名
print(np.__version__) # 如果显示版本信息,说明安装和导入成功;1.22.1
print(np.eye(3)) # 使用eye(n) 生成对角矩阵
# 输出
'''
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
'''

3. ndarray 对象

ndarray 是 Numpy 库的基础,是一种由同质元素构成的多维数组。元素数量是事先指定好的,同质指的是所有元素的类型和大小都相同。数据类型由dtype(data-type,数据类型)的Numpy对象指定。每个ndarray只有一种dtype类型。


数组的维数和元素的数量由数组的形状(shape)确定,数组的形状由N个正整数组成的元组指定,元组的每个元素对应每一维的大小。数组的维统称为轴(axes),轴的数量被称作秩(rank)。


Numpy 数组的另一个特点是大小固定,在创建数组时指定大小,然后就不再发生改变。这与Python的列表有所不同,列表的大小时可以改变的。


1) 创建ndarray对象

使用array(),通过嵌套列表或元组定义为多维数组。

numpy.array(object,dtype=None,copy=True,order=None,subok=False,ndmin=0)

参数说明如下:

  • object:数组或嵌套的数列。
  • dtype:数组元素的数据类型,可选。
  • copy:对象是否需要复制,可选。
  • order:创建数组的样式,C为行方向,F为列方向,A为任意方向(默认)。
  • subok:默认返回一个与基类类型一致的数组。
  • ndmin:指定生产数组的最小维度。
import numpy as np # 导入numpy并取别名
a = np.array([1,2,3]) # 定义一维 ndarray 对象
b = np.array([[1,2],[3,4]]) # 定义多维 ndarray 对象
print(a) # 输出 [1 2 3]
print(b) 
''' 输出
[[1 2]
 [3 4]]
'''
print(b.itemsize) # 使用itemsize属性可以获取每个元素的大小(以字节为
print(b.data) # 使用data属性表示包含数组实际元素的缓冲区

使用empty()函数可以创建一个指定形状(shape)、数据类型(dtype)且未初始化的数组。

numpy.empty(shape,dtype=float,order='C')

参数说明如下:

  • shape:数组形状。
  • dtype:数据类型,可选。
  • order:有‘C’和’F’两个选项,分别代表行优先和列优先,在计算机内存中存储元素的顺序。
import numpy as np # 导入numpy并取别名
x = np.empty([2,2],dtype=int) 
print(x)
'''输出
[[1 2]
 [3 4]]
'''

使用zeros(),可以创建指定大小的数组,数组元素初始为0,语法格式和empty()相同。

import numpy as np # 导入numpy并取别名
x = np.zeros([2,2],dtype=int) 
print(x)
'''输出
[[0 0]
 [0 0]]
'''

使用ones(),可以创建指定大小的数组,数组元素初始为1,语法格式和empty()相同。

import numpy as np # 导入numpy并取别名
x = np.ones([2,2],dtype=int) 
print(x)
'''输出
[[1 1]
 [1 1]]
'''

2) 数据类型

Numpy 支持的数据类型比Python内置的类型要多,基本上与C语言的数据类型对应,具体如下:

  • bool:布尔型数据类型(True或False)
  • int:默认的整数类型(类似于C语言中的long、int32或int64)
  • intc:与C的int类型一样,一般是int32或int64
  • intp:用于索引的整数类型(类似于C的ssize_t,一般情况下仍然是int32或int64)
  • int8:字节(-128~127)
  • int16:整数(-32768~32767)
  • int32:整数(-2147483648~2147483647)
  • int64:整数
  • uint8:无符号整数(0~255)
  • uint16:无符号整数(0~65535)
  • uint32:无符号整数(0~4294967295)
  • uint64:无符号整数
  • float:float64类型的简写
  • float16:半精度浮点数,包括1个符号位,5个指数位,10个尾数位
  • float32:单精度浮点数,包括1个符号位,8个指数位,23个尾数位
  • float64:双精度浮点数,包括1个符号位,11个指数位,52个尾数位
  • complex:complex128类型的简写,即128位复数
  • complex64:复数,表示双32位浮点数(实数部分和虚数部分)
  • complex128:复数,表示双64位浮点数(实数部分和虚数部分)

3) 数组属性

Numpy中,每一个线性的数组称为一个轴(axis),也就是维度(dimension)。二维数组相当于两个一维数组,其中一个数组中每个元素又是一个一维数组。包含的主要属性如下:

  • ndarray.ndim:秩,即轴的数量或维度的数量。
  • ndarray.shape:数组的形状,对于矩阵,表示n行m列。
  • ndarray.size:数组元素的总个数,相当于n*m的值。
  • ndarray.dtype:ndarray对象的元素类型。
  • ndarray.itemsize:ndarray对象中每个元素的大小,以字节为单位。
  • ndarray.flags:ndarray对象中每个元素的内存信息。
  • ndarray.real:ndarray元素的实部。
  • ndarray.imag:ndarray元素的虚部。
  • ndarray.data:包含实际数组元素的缓冲区。一般通过数组的索引获取元素,所以通常不需要使用这个属性。
import numpy as np # 导入numpy并取别名
b = np.array([[1,2],[3,4]])
print(b)
'''输出
[[1 2]
 [3 4]]
'''
print(type(b))  # <class 'numpy.ndarray'>
print(b.dtype) # int64
print(b.ndim) # 2
print(b.size) # 4
print(b.shape) # (2, 2)

4. 基本运算

1) 算术运算

import numpy as np 
a = np.array([1,2,3,4])
print(a+2) # [3 4 5 6]
print(a-2) # [-1  0  1  2]
print(a*2) # [2 4 6 8]
print(a/2) # [0.5 1.  1.5 2. ]
b = np.array([2,3,4,5])
print(b-a) # [1 1 1 1]

2) 矩阵积

dot()函数能够返回两个数组的点积。一维数组,位置相同的元素相乘,然后再求和,二维数组(矩阵)之间的运算,则得到的是矩阵积。

a.dot(b)与np.dot(a,b) 效果相同,矩阵积计算不遵循交换律,也就是np.dot(a,b)和np.dot(b,a)得到的结果不一样。

import numpy as np
a = np.array([1,2,3,4])
b = np.array([4,5,6,7])
print(np.dot(a,b))  # 60
c = np.array([[1,2],[3,4]])
d = np.array([[5,6],[7,8]])
print(np.dot(c,d))
'''输出
[[19 22]
 [43 50]]
'''
print(np.dot(d,c))
'''输出
[[23 34]
 [31 46]]
'''

3) 自增和自减

使用+=和-=运算符可以实现数组自增和自减。

import numpy as np
a = np.array([[1,2],[3,4]])
a += 1
print(a)
'''输出
[[2 3]
 [4 5]]
'''

4) 通用函数

三角函数等很多数学运算符符合通用函数的定义,计算平方根的sqrt()函数、用来取对数的log()函数和正弦函数sin()

import numpy as np
a = np.array([[1,2],[3,4]])
print(np.sin(a))
'''输出
[[ 0.84147098  0.90929743]
 [ 0.14112001 -0.7568025 ]]
'''

5) 聚合函数

聚合函数是指对一组值,进行操作,返回一个单一值作为结果的函数。

import numpy as np
a = np.array([[1,2],[3,4]])
print(a.sum()) # 10
print(a.min()) # 1
print(a.max()) # 4
print(a.std()) # 1.118033988749895


5. 索引、切片和迭代

1) 索引

访问单个元素,用法与list类似。

import numpy as np
a = np.array([1,2,3,4])
print(a[2]) # 3
b = np.array([[1,2],[3,4]])
print(b[1,1]) # 4
print(b[-1,-1]) # 4

2) 切片

切片抽取数组的一部分元素并生成新数组。

import numpy as np
a = np.array([range(0,10),range(10,20),range(20,30),range(40,50)])
print(a[1:5,1:7]) # 截取连续局部矩阵
'''输出
[[11 12 13 14 15 16]
 [21 22 23 24 25 26]
 [41 42 43 44 45 46]]
'''
print(a[[1,3],1:7])
'''输出
[[11 12 13 14 15 16]
 [41 42 43 44 45 46]]
'''

3) 迭代

对于一维数组,可以使用for进行迭代;对于二维数组,可以使用嵌套的for进行迭代,外层for扫描行,内层for扫描列。

import numpy as np
a = np.array([[1,2],[3,4]])
for row in a:
    for col in row:
        print(col,end=' ')
print(' ') # 换行

for item in a.flat: # flat 表示数组元素迭代器
    print(item,end=' ')

6. 条件和布尔数组

使用条件表达式和布尔运算符有选择地抽取元素。

import numpy as np
a = np.random.random((4,4))
print(a)
'''输出
[[0.49954069 0.42753987 0.25914236 0.1253001 ]
 [0.48690952 0.35854975 0.07134125 0.2598206 ]
 [0.15511689 0.8465675  0.9928091  0.40122818]
 [0.21870776 0.97000971 0.92714403 0.97068106]]
'''
print(a[a<0.5])
'''输出
[0.49954069 0.42753987 0.25914236 0.1253001  0.48690952 0.35854975
 0.07134125 0.2598206  0.15511689 0.40122818 0.21870776]
'''

7. 变换形状

使用reshape()函数可以改变数组的形状,该函数返回一个新数组。

import numpy as np
a = np.random.random(12)
print(a)
print(a.reshape(3,4))
a.shape = (2,6) # 直接将新形状的元组赋值给shape属性
print(a)

改变数组形状的操作是可逆的,使用ravel()函数可以把二维数组再变回一维数组。甚至直接改变数组shape属性的值。使用transpose()函数可以实现行、列位置的矩阵转置。

import numpy as np
a = np.array([[1,2],[3,4]])
b = a.transpose() # 行列位置转置
b
''' 输出
array([[1, 3],
       [2, 4]])
'''

8. 操作数组

1) 合并数组

合并数组有以下3种方法:

  • np.concatenate:合并维数相同的两个数组。
  • np.vstack:垂直方向合并一维数组和二维数组。
  • np.hstack:水平方向合并一维数组和二维数组。
a = np.ones((2,2))
b = np.zeros((2,2))
print(np.vstack((a,b))) # 垂直方向
''' 输出
[[1. 1.]
 [1. 1.]
 [0. 0.]
 [0. 0.]]
'''
print(np.hstack((a,b))) # 水平方向
''' 输出
[[1. 1. 0. 0.]
 [1. 1. 0. 0.]]
'''

column_stack()row_stack()两个函数把一维数组作为列或行入栈结构,以形成一个新的二维数组。

import numpy as np
a = np.array([1,2,3])
b = np.array([4,5,6])
d = np.column_stack((a,b)) 
print(d)
''' 输出
[[1 4]
 [2 5]
 [3 6]]
'''
e = np.row_stack((a,b))
print(e)
''' 输出
[[1 2 3]
 [4 5 6]]
'''

2) 切分数组

切分数组有以下3种方法:

  • np.split:分割。
  • np.vsplit:垂直分割。
  • np.hsplit:水平分割。
import numpy as np 
a = np.arange(16).reshape(4,4)
print('原数组:')
print(a)
print('默认分割(0轴):')
b = np.split(a,2)
print(b)
print('垂直方向分割:')
c = np.vsplit(a,2)
print(c)
print('水平方向分割:')
d = np.hsplit(a,2)
print(d)


相关文章
|
1月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
74 0
|
24天前
|
数据采集 存储 数据处理
Python中的多线程编程及其在数据处理中的应用
本文深入探讨了Python中多线程编程的概念、原理和实现方法,并详细介绍了其在数据处理领域的应用。通过对比单线程与多线程的性能差异,展示了多线程编程在提升程序运行效率方面的显著优势。文章还提供了实际案例,帮助读者更好地理解和掌握多线程编程技术。
|
28天前
|
数据处理 开发者 Python
Python中的列表推导式:简洁高效的数据处理
在编程世界中,效率和可读性是代码的两大支柱。Python语言以其独特的简洁性和强大的表达力,为开发者提供了众多优雅的解决方案,其中列表推导式便是一个闪耀的例子。本文将深入探讨列表推导式的使用场景、语法结构及其背后的执行逻辑,带你领略这一特性的魅力所在。
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
42 2
|
1月前
|
存储 数据处理 Python
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第27天】在科学计算和数据分析领域,Python凭借简洁的语法和强大的库支持广受欢迎。NumPy和SciPy作为Python科学计算的两大基石,提供了高效的数据处理和分析工具。NumPy的核心功能是N维数组对象(ndarray),支持高效的大型数据集操作;SciPy则在此基础上提供了线性代数、信号处理、优化和统计分析等多种科学计算工具。结合使用NumPy和SciPy,可以显著提升数据处理和分析的效率,使Python成为科学计算和数据分析的首选语言。
44 3
|
1月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
45 2
|
1月前
|
存储 机器学习/深度学习 算法
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第26天】NumPy和SciPy是Python科学计算领域的两大核心库。NumPy提供高效的多维数组对象和丰富的数学函数,而SciPy则在此基础上提供了更多高级的科学计算功能,如数值积分、优化和统计等。两者结合使Python在科学计算中具有极高的效率和广泛的应用。
63 2
|
28天前
|
机器学习/深度学习 数据可视化 数据处理
掌握Python数据科学基础——从数据处理到机器学习
掌握Python数据科学基础——从数据处理到机器学习
41 0
|
29天前
|
机器学习/深度学习 数据采集 数据挖掘
Python在数据科学中的应用:从数据处理到模型训练
Python在数据科学中的应用:从数据处理到模型训练
|
1月前
|
分布式计算 并行计算 大数据
Python编程中的高效数据处理技巧
Python编程中的高效数据处理技巧
51 0
下一篇
DataWorks