Python数据分析篇--NumPy--进阶

简介: Python数据分析篇--NumPy--进阶

多维数组

1. 一维数组只有行,二维数组相比一维数组多了列这个维度,而三维数组则类似多个二维数组堆叠在一起,形如一个立方体。

二维数组的创建

1. 二维数组相当于单层的嵌套列表。并且我们可以将单层嵌套列表传入 np.array() 方法创建一个二维数组。


2. ones() 和 zeros() 方法同样也能快速创建元素全为 1 和 0 的二维数组。与之前的区别在于,创建二维数组要传入一个包含行和列信息的元组。


3. 更多维的数组的创建,只要传入嵌套层数更多的列表即可。

import numpy as np
 
list_1=[[1, 2], [3, 4]]
print(list_1)
# [[1, 2], [3, 4]]
 
list_2=np.array([[1, 2], [3, 4]])
print(list_2)
# [[1 2]
#  [3 4]]
import numpy as np
list_1=np.ones((3,4)) # 3行4列
print(list_1)
 
#[[1. 1. 1. 1.]
# [1. 1. 1. 1.]
# [1. 1. 1. 1.]]

多维数组的性质

1. ndim:多维数组的维度个数。例如:二维数组的 ndim 为 2;


2. shape:多维数组的形状。对于 m 行和 n 列的数组,它的 shape 将是 (m,n)。因此,shape 元组的长度(元素个数)就是 ndim 的值;


3. size:多维数组中所有元素的个数。shape 元组中每个元素的乘积就是 size 的值;


4. dtype:多维数组中元素的类型。    

data = np.array([[1, 2, 3], [4, 5, 6]])
 
print('ndim:', data.ndim)
print('shape:', data.shape)
print('size:', data.size)
print('dtype:', data.dtype)
 
# ndim: 2
# shape: (2, 3)
# size: 6
# dtype: int64

二维数组的加减乘除

1. 二维数组间的加减乘除和一维数组间的并无大致,也是对应位置的元素进行计算。


2. 维度一样的数组间可以进行计算的条件是形状(shape)一样,形状不一样的数组元素无法一一对应,因此无法计算,导致报错。


3. 广播原则:先补齐行轴,再往列轴方向进行复制。



二维数组的通用方法

1. 二维数组的通用方法和一维数组的通用方法的基本用法类似,只是多了一个维度的数据。


2. 二维数组不仅可以对所有数据进行计算,还可以针对某个维度上的数据进行计算。


3. 这里就要引入一个概念——轴(axis)。轴和维度的概念是类似的,一维数组有 1 个轴,二维数组有 2 个轴,三维数组有 3 个轴等等。


import numpy as np
data = np.array([[1, 2], [5, 3], [4, 6]])
 
# 不指定 axis
print(data.max())
# 输出:6
 
# axis=0
print(data.max(axis=0))
# 输出:[5 6]
 
# axis=1
print(data.max(axis=1))
# 输出:[2 5 6]

二维数组的索引和分片

1. 二维数组的索引和分片同样和一维数组类似,只是在行索引的基础上再加上列索引。


2. 形如 data[m,n],其中 data 是二维数组,m 是行索引或分片,n 是列索引或分片。


3. 如果省略第二个参数 n 的话表示获取所有列,data[0] 就表示获取整个第一行,相当于 data[0, :]。

data = np.array([[1, 2], [3, 4], [5, 6]])
 
print(data[0, 1])
# 2
 
print(data[:, 0])
# [1 3 5]
 
print(data[1:3])
# [[3 4]
#  [5 6]]

布尔索引

1. 布尔索引,顾名思义就是用布尔值作为索引去获取需要的元素。

2. and 改用 &,or 改用 |,not 改用 ~,并且每个条件要用括号括起来。

data = np.array([[1, 2], [3, 4], [5, 6]])
print(data[data > 3])
# 输出:[4 5 6]
 
# 大于 3 或者不小于 2(即大于等于 2)
print(data[(data > 3) | ~(data < 2)])
# 输出:[2 3 4 5 6]

实用方法

arange() 方法

1. numpy 中的 arange() 方法和 Python 中的 rang() 用法类似,不同之处在于 arange() 方法生成的是数组,而 rang() 方法生成的是 rang 类型的序列。

# 生成 1-9 的数组
print(np.arange(1, 10))
# 输出:[1 2 3 4 5 6 7 8 9]
 
# 生成 0-9 的数组
print(np.arange(10))
# 输出:[0 1 2 3 4 5 6 7 8 9]
 
# 生成 1-9 的数组,步长为 2
print(np.arange(1, 10, 2))
# 输出:[1 3 5 7 9]

随机方法

1. Python 中有 random 模块来生成随机数,numpy 针对多维数组也集成了 random 模块,并且更加方便好用。


2. 这里只介绍其中的 rand() 方法和 randint() 方法,更多方法大家可以在需要时查询使用。


3. numpy 中的 np.random.rand() 方法和 Python 中 random.rand() 方法类似,都是生成 [0,1) 之间的随机小数。


4. 不同的是,numpy 中的  np.random.rand() 方法可以生成多个 [0,1) 之间的随机小数,只需我们传入要生成的随机数组的形状(shape)即可。


5. 同理,numpy 中的 np.random.randint() 方法和 Python 中的 random.randint() 类似.


6. 不同之处在于,random.randint() 生成的是 [m,n] 之间的整数,而 np.random.randint() 生成的是 [m,n) 之间的整数。

# 不传参数时
print(np.random.rand())
# 输出:0.1392571183916036
 
# 传入一个参数时
print(np.random.rand(3))
# 输出:[0.7987698  0.52115291 0.70452156]
 
# 传入多个参数时
print(np.random.rand(2, 3))
# 输出:
# [[0.08539006 0.97878203 0.23976172]
#  [0.34301963 0.48388704 0.63304024]]
# 不传入形状时
print(np.random.randint(0, 5))
# 输出:3
 
# 形状为一维数组时
print(np.random.randint(0, 5, 3))
# 输出:[4 0 1]
 
# 形状为二维数组时
print(np.random.randint(0, 5, (2, 3)))
# 输出:
# [[0 2 1]
#  [4 2 0]]

genfromtxt() 方法

1. genfromtxt() 方法用于文件的读取。


2. genfromtxt() 方法常用的参数有两个,分别是数据源和分隔符。


3. 第一个参数是数据源,可以是本地文件的路径,也可以是网络文件的地址。


4. 第二个delimiter 参数用于指定分隔符,CSV 文件一般是用逗号作为分隔符,当遇到其他符号分隔的文件时,用 delimiter 参数进行指定即可。


5. genfromtxt() 方法的返回值是一个多维数组。


import numpy as np
data=np.genfromtxt('data.csv',delimiter=',')
print(data)

致谢

 感谢您花时间阅读这篇文章!如果您对本文有任何疑问、建议或是想要分享您的看法,请不要犹豫,在评论区留下您的宝贵意见。每一次互动都是我前进的动力,您的支持是我最大的鼓励。期待与您的交流,让我们共同成长,探索技术世界的无限可能!

相关文章
|
6天前
|
编解码 Java 程序员
写代码还有专业的编程显示器?
写代码已经十个年头了, 一直都是习惯直接用一台Mac电脑写代码 偶尔接一个显示器, 但是可能因为公司配的显示器不怎么样, 还要接转接头 搞得桌面杂乱无章,分辨率也低,感觉屏幕还是Mac自带的看着舒服
|
8天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1563 10
|
1月前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
11天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
738 27
|
8天前
|
存储 SQL 关系型数据库
彻底搞懂InnoDB的MVCC多版本并发控制
本文详细介绍了InnoDB存储引擎中的两种并发控制方法:MVCC(多版本并发控制)和LBCC(基于锁的并发控制)。MVCC通过记录版本信息和使用快照读取机制,实现了高并发下的读写操作,而LBCC则通过加锁机制控制并发访问。文章深入探讨了MVCC的工作原理,包括插入、删除、修改流程及查询过程中的快照读取机制。通过多个案例演示了不同隔离级别下MVCC的具体表现,并解释了事务ID的分配和管理方式。最后,对比了四种隔离级别的性能特点,帮助读者理解如何根据具体需求选择合适的隔离级别以优化数据库性能。
225 3
|
15天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
787 5
|
2天前
|
Python
【10月更文挑战第10天】「Mac上学Python 19」小学奥数篇5 - 圆和矩形的面积计算
本篇将通过 Python 和 Cangjie 双语解决简单的几何问题:计算圆的面积和矩形的面积。通过这道题,学生将掌握如何使用公式解决几何问题,并学会用编程实现数学公式。
108 60
|
1天前
|
人工智能
云端问道12期-构建基于Elasticsearch的企业级AI搜索应用陪跑班获奖名单公布啦!
云端问道12期-构建基于Elasticsearch的企业级AI搜索应用陪跑班获奖名单公布啦!
115 1
|
3天前
|
Java 开发者
【编程进阶知识】《Java 文件复制魔法:FileReader/FileWriter 的奇妙之旅》
本文深入探讨了如何使用 Java 中的 FileReader 和 FileWriter 进行文件复制操作,包括按字符和字符数组复制。通过详细讲解、代码示例和流程图,帮助读者掌握这一重要技能,提升 Java 编程能力。适合初学者和进阶开发者阅读。
104 61
|
14天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】