Data Science | Numpy基础(二)

简介: Data Science | Numpy基础(二)

Anaconda的基本用法

按照上篇文章,相信大家都安装好了Anaconda,有朋友在留言区留言希望出一篇关于Anaconda的使用教程,其实Anaconda的基本使用非常简单,基本无需教程。

在windows下安装好Anaconda后,在所有程序中可以看到Anaconda下有以下几个组件:

  • Anaconda Navigator:用于管理工具包和环境的图形界面。
  • Anaconda Prompt:用于管理包和环境的命令行界面。
  • Jupyter Note book:基于Web的交互式计算环境,用于展示数据分析的过程,并且生成容易阅读的文档。
  • Spyder:Python集成开发环境,布局类似于Matlab。

我们学习主要使用的是第三个Jupyter Note book。

这里简单普及一下常用的Anaconda命令(虽然我也不经常用)。

  • 查看软件版本号
python --version #查看Python版本
conda --version #查看conda的版
  • 添加镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  • 更新conda
conda upgrade --all
  • 查看已经安装的packages
conda list
conda install [package name] #安装package,安装在默认的Python环境中

新手入门建议只安装Anaconda,可以省去很多不必要的麻烦,以上就是Anaconda的基本使用,欢迎大家在留言区补充。

Numpy索引及切片

纠正下上一篇的错误:

# 正确的导入方式
import numpy as np

numpy的索引方式和Python中的列表索引相似,这里主要介绍普通数组索引/切片和布尔型数组的索引/切片。

一维数组的索引/切片

一维数组的索引和切片和Python中的列表相同,索引都是从0开始,切片都是左闭右开。

import numpy as np
ar = np.arange(20)
# 输出ar的第4个值
print(ar[3])
# 输出ar的前四个值
print(ar[:4])
>>>
4
[0 1 2 3]
多维数组的索引/切片

二维数组可以理解为两个一维数组横向堆叠在一起,所只要分别取对应索引即可。

import numpy as np
ar = np.arange(16).reshape(4,4)
# 二维数组索引遵照先行后列(有以下两种写法)
# 选取第二行第二列的值
print(ar[2][2])
print(ar[2,2])
# 二维数组切片
# 取出前两行的值
print(ar[:2])
# 取出前两行后两列的值
print(ar[:2,2:])
>>>
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
10
10
[[0 1 2 3]
 [4 5 6 7]]
[[2 3]
 [6 7]]

三位数组的索引、切片的取值方式相当与二维数组的进化版。

import numpy as np
ar = np.arange(12).reshape(3,2,2)
print(ar)
# 三维数组索引遵照先维度后行再列
print(ar[2][0][1])
print(ar[2,0,1])
# 切片
# 获取第一个数组的第一行的第一列的数
print(ar[:1,:1,:1])
>>>
[[[ 0  1]
  [ 2  3]]
 [[ 4  5]
  [ 6  7]]
 [[ 8  9]
  [10 11]]]
[[[0]]]
9
9
布尔型的索引及切片

布尔型数组的使用是本片文章的重点。

# 简单展示一下布尔型的一维数组长啥样
i = np.array([True,False,True])
j = np.array([True,True,False,False])
print(i)
print(j)
>>>
[ True False  True]
[ True  True False False]

而我们经常见到的是这样的:

ar = np.arange(12).reshape(3,4)
print(ar)
print(ar>5)
>>>
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
 [[False False False False]
 [False False  True  True]
 [ True  True  True  True]]

当我们需要筛选出ar中大于3的值,就可以使用布尔值进行筛选,如下:

ar = np.arange(12).reshape(3,4)
print(ar[ar>3])
>>>
[ 4  5  6  7  8  9 10 11]
Numpy随机数
均匀分布和正态分布

以均匀分布和正态分布的方式生成随机数

# numpy.random.rand() 生成一个0-1的随机浮点数或N维浮点数 --均匀分布
a = np.random.rand()
b = np.random.rand(4,4)
print(a)
print(b)
>>>
0.5544023939180306
[[0.46387648 0.97345876 0.12059175 0.7565951 ]
 [0.30192996 0.76633208 0.20107761 0.09315875]
 [0.79347118 0.26714404 0.08628158 0.72510313]
 [0.06606087 0.93260038 0.90268201 0.90941348]]

以正太分布的方式生成随机数

# numpy.random.randn() 生成一个0-1的随机浮点数或N维浮点数 --正态分布
a = np.random.randn()
b = np.random.randn(4,4)
print(a)
print(b)
>>>
0.26901442604096687
[[ 0.40261375 -0.23541184  0.96607489 -1.11253043]
 [-0.31670703  0.05841136 -0.01862511  1.72597729]
 [ 0.17052799  1.03537825 -0.94375417  1.32484928]
 [ 0.132761    0.44950533  0.44131534 -0.11319535]]

按照上面的写法相信大家对与.randn()和.rand()的认识还不够清晰,这里用可视化的方式展示一下:

#平均分布
# numpy.random.rand() 生成一个0-1的随机浮点数或N维浮点数 --均匀分布
data1 = np.random.rand(500)
data2 = np.random.rand(500)
#正态分布
# numpy.random.randn() 生成一个浮点数或N维浮点数  --正态分布
data3 = np.random.randn(500)
data4 = np.random.randn(500)
import matplotlib.pyplot as plt
% matplotlib inline
plt.scatter(data1,data2)
plt.scatter(data3,data4)

这是随机分布的图样:

plt.scatter(data1,data2)

这是正态分布的图样:

plt.scatter(data3,data4)

可以看到正态分布和随机分布的成像还是有较大不同的,当然这里只是加深大家对.randn()和.rand()的认识,可视化在之后会进一步学习。

Numpy随机数的其他用法
#随机整数
print(np.random.randint(2))
#在2-10之间生成随机整数
print((np.random.randint(2,10)))
# 在0-10之间生成10个整数
print((np.random.randint(10,size=10)))
# 在0-10之间生成包含10个元素的二维数组
print(np.random.randint(10,size=(2,5)))
# 在10-50之间生成包含10个元素的二维数组
print(np.random.randint(10,50,size=(2,5)))

作业

  1. 创建2个包含10个元素的正太分布一维数组
  2. 请按照要求创建数组ar,再将ar[:2,:2]的值改为[0,1)的随机数
  3. 按照要求创建数组,通过索引,其ar[4]、ar[:2,3:]、ar[3][2]分别是多少
  4. 按照要求创建数组,筛选出元素值大于5的值并生成新的数组

相关文章
|
vr&ar Python
Data Science | Numpy基础(一)
Data Science | Numpy基础(一)
Data Science | Numpy基础(一)
|
存储 Python
​Data Science | 福利列表 | Numpy基础(三)
​Data Science | 福利列表 | Numpy基础(三)
|
21天前
|
机器学习/深度学习 数据处理 计算机视觉
NumPy实践宝典:Python高手教你如何轻松玩转数据处理!
【8月更文挑战第22天】NumPy是Python科学计算的核心库,专长于大型数组与矩阵运算,并提供了丰富的数学函数。首先需安装NumPy (`pip install numpy`)。之后可通过创建数组、索引与切片、执行数学与逻辑运算、变换数组形状及类型、计算统计量和进行矩阵运算等操作来实践学习。NumPy的应用范围广泛,从基础的数据处理到图像处理都能胜任,是数据科学领域的必备工具。
38 0
|
2月前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
60 1
|
13天前
|
存储 缓存 C语言
|
12天前
|
机器学习/深度学习 存储 算法
NumPy 与 SciPy:Python 科学计算库的比较
【8月更文挑战第30天】
35 1
|
12天前
|
存储 C语言 Python
|
13天前
|
存储 并行计算 测试技术
NumPy 性能优化:提升 Python 数值计算的速度
【8月更文第30天】Python 是一种广泛使用的编程语言,在科学计算领域尤其受欢迎。然而,由于 Python 的动态类型和解释执行机制,其在处理大规模数值数据时可能会显得相对较慢。为了克服这一限制,NumPy(Numerical Python)库提供了高性能的多维数组对象以及一系列用于操作这些数组的函数。本文将探讨如何利用 NumPy 来提高 Python 中数值运算的效率。
15 0