机器学习中数据处理与可视化的python、numpy等常用函数

简介: 写在前面:本文所针对的python版本为python3.0以上!np.tile()tile()相当于复制当前行元素或者列元素import numpy as npm1 = np.

写在前面:本文所针对的python版本为python3.0以上!


np.tile()

tile()相当于复制当前行元素或者列元素

import numpy as np

m1 = np.array([1, 2, 3, 4])
# 行复制两次,列复制一次到一个新数组中
print(np.tile(m1, (2, 1)))
print("===============")
# 行复制一次,列复制两次到一个新数组中
print(np.tile(m1, (1, 2)))
print("===============")
# 行复制两次,列复制两次到一个新数组中
print(np.tile(m1, (2, 2)))

输出:

D:\Python\python.exe E:/ML_Code/test_code.py
[[1 2 3 4]
 [1 2 3 4]]
===============
[[1 2 3 4 1 2 3 4]]
===============
[[1 2 3 4 1 2 3 4]
 [1 2 3 4 1 2 3 4]]

sum()

sum函数是对元素进行求和,对于二维数组以上则可以根据参数axis进行分别对行和列进行求和,axis=0代表按列求和,axis=1代表行求和。

import numpy as np

m1 = np.array([1, 2, 3, 4])
# 元素逐个求和
print(sum(m1))

m2 = np.array([[6, 2, 2, 4], [1, 2, 4, 7]])
# 按列相加
print(m2.sum(axis=0))
# 按行相加
print(m2.sum(axis=1))

输出:

D:\Python\python.exe E:/ML_Code/test_code.py
10
[ 7  4  6 11]
[14 14]

Process finished with exit code 0

shape和reshape

import numpy as np

a = np.array([[1, 2, 3], [4, 5, 6]])
print(a.shape)

b = np.reshape(a, 6)
print(b)

# -1是根据数组大小进行维度的自动推断
c = np.reshape(a, (3, -1))  # 为指定的值将被推断出为2
print(c)

输出:

D:\python-3.5.2\python.exe E:/ML_Code/test_code.py

(2, 3)

---

[1 2 3 4 5 6]

---

[[1 2]
 [3 4]
 [5 6]]

numpy.random.rand

import numpy as np

# 创建一个给定类型的数组,将其填充在一个均匀分布的随机样本[0, 1)中

print(np.random.rand(3))

print(np.random.rand(2, 2))

输出:

D:\python-3.5.2\python.exe E:/ML_Code/test_code.py

[ 0.03568079  0.68235136  0.64664722]

---

[[ 0.43591417  0.66372315]
 [ 0.86257381  0.63238434]]

zip()

zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。
如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为列表。

import numpy as np

a1 = np.array([1, 2, 3, 4])
a2 = np.array([11, 22, 33, 44])

z = zip(a1, a2)

print(list(z))

输出:

D:\Python\python.exe E:/ML_Code/test_code.py
[(1, 11), (2, 22), (3, 33), (4, 44)]

Process finished with exit code 0

注意点:在python 3以后的版本中zip()是可迭代对象,使用时必须将其包含在一个list中,方便一次性显示出所有结果。否则会报如下错误:

<zip object at 0x01FB2E90>

矩阵相关

import numpy as np

# 生成随机矩阵
myRand = np.random.rand(3, 4)
print(myRand)

# 生成单位矩阵
myEye = np.eye(3)
print(myEye)

from numpy import *

# 矩阵所有元素求和
myMatrix = mat([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(sum(myMatrix))

# 计算矩阵的秩
print(linalg.det(myMatrix))

# 计算矩阵的逆
print(linalg.inv(myMatrix))

注意:

from numpy import *
import numpy as np

vector1 = mat([[1, 2], [1, 1]])
vector2 = mat([[1, 2], [1, 1]])
vector3 = np.array([[1, 2], [1, 1]])
vector4 = np.array([[1, 2], [1, 1]])

# Python自带的mat矩阵的运算规则是两者都按照矩阵乘法的规则来运算
print(vector1 * vector2)

# Python自带的mat矩阵的运算规则是两者都按照矩阵乘法的规则来运算
print(dot(vector1, vector2))

# numpy乘法运算中"*"是数组元素逐个计算
print(vector3 * vector4)

# numpy乘法运算中dot是按照矩阵乘法的规则来运算
print(dot(vector3, vector4))

输出:

D:\python-3.5.2\python.exe D:/PyCharm/py_base/py_numpy.py
[[3 4]
 [2 3]]
 ---
[[3 4]
 [2 3]]
 ---
[[1 4]
 [1 1]]
 ---
[[3 4]
 [2 3]]

向量相关

两个n维向量A(X11,X12,X13,...X1n)B(X21,X22,X23,...X2n)之间的欧式距离为:

d12=k=1n(x1kx2k)2

表示成向量运算的形式:

d12=(AB)(AB)T
from numpy import *

# 计算两个向量的欧氏距离

vector1 = mat([1, 2])
vector2 = mat([3, 4])
print(sqrt((vector1 - vector2) * ((vector1 - vector2).T)))

概率相关

from numpy import *
import numpy as np

arrayOne = np.array([[1, 2, 3, 4, 5], [7, 4, 3, 3, 3]])

# 计算第一列的平均数
mv1 = mean(arrayOne[0])

# 计算第二列的平均数
mv2 = mean(arrayOne[1])

# 计算第一列的标准差
dv1 = std(arrayOne[0])

# 计算第二列的标准差
dv2 = std(arrayOne[1])

print(mv1)
print(mv2)
print(dv1)
print(dv2)
相关文章
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
3月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
179 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
3月前
|
机器学习/深度学习 数据可视化 数据处理
掌握Python数据科学基础——从数据处理到机器学习
掌握Python数据科学基础——从数据处理到机器学习
69 0
|
3月前
|
机器学习/深度学习 数据采集 人工智能
机器学习入门:Python与scikit-learn实战
机器学习入门:Python与scikit-learn实战
107 0
|
5月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
148 1
|
6月前
|
机器学习/深度学习 数据处理 计算机视觉
NumPy实践宝典:Python高手教你如何轻松玩转数据处理!
【8月更文挑战第22天】NumPy是Python科学计算的核心库,专长于大型数组与矩阵运算,并提供了丰富的数学函数。首先需安装NumPy (`pip install numpy`)。之后可通过创建数组、索引与切片、执行数学与逻辑运算、变换数组形状及类型、计算统计量和进行矩阵运算等操作来实践学习。NumPy的应用范围广泛,从基础的数据处理到图像处理都能胜任,是数据科学领域的必备工具。
80 0
|
3月前
|
存储 数据处理 Python
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第27天】在科学计算和数据分析领域,Python凭借简洁的语法和强大的库支持广受欢迎。NumPy和SciPy作为Python科学计算的两大基石,提供了高效的数据处理和分析工具。NumPy的核心功能是N维数组对象(ndarray),支持高效的大型数据集操作;SciPy则在此基础上提供了线性代数、信号处理、优化和统计分析等多种科学计算工具。结合使用NumPy和SciPy,可以显著提升数据处理和分析的效率,使Python成为科学计算和数据分析的首选语言。
117 3
|
3月前
|
存储 机器学习/深度学习 算法
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第26天】NumPy和SciPy是Python科学计算领域的两大核心库。NumPy提供高效的多维数组对象和丰富的数学函数,而SciPy则在此基础上提供了更多高级的科学计算功能,如数值积分、优化和统计等。两者结合使Python在科学计算中具有极高的效率和广泛的应用。
126 2
|
5月前
|
机器学习/深度学习 算法 数据可视化
8种数值变量的特征工程技术:利用Sklearn、Numpy和Python将数值转化为预测模型的有效特征
特征工程是机器学习流程中的关键步骤,通过将原始数据转换为更具意义的特征,增强模型对数据关系的理解能力。本文重点介绍处理数值变量的高级特征工程技术,包括归一化、多项式特征、FunctionTransformer、KBinsDiscretizer、对数变换、PowerTransformer、QuantileTransformer和PCA,旨在提升模型性能。这些技术能够揭示数据中的潜在模式、优化变量表示,并应对数据分布和内在特性带来的挑战,从而提高模型的稳健性和泛化能力。每种技术都有其独特优势,适用于不同类型的数据和问题。通过实验和验证选择最适合的变换方法至关重要。
94 5
8种数值变量的特征工程技术:利用Sklearn、Numpy和Python将数值转化为预测模型的有效特征
|
4月前
|
机器学习/深度学习 并行计算 大数据
【Python篇】NumPy完整指南(上篇):掌握数组、矩阵与高效计算的核心技巧2
【Python篇】NumPy完整指南(上篇):掌握数组、矩阵与高效计算的核心技巧
164 10

热门文章

最新文章

推荐镜像

更多