✌ 数据归一化、标准化、正则化
1、✌ 归一化
是将数据放缩到0~1区间,利用公式(x-min)/(max-min)
2、✌ 标准化
将数据转化为标准的正态分布,均值为0,方差为1
3、✌ 正则化
正则化的主要作用是防止过拟合,对模型添加正则化项可以限制模型的复杂度,使得模型在复杂度和性能达到平衡。
常用的正则化方法有L1正则化和L2正则化。L1正则化和L2正则化可以看作是损失函数的惩罚项。所谓“惩罚”就是对损失函数中的某些参数做一些限制。
4、✌ 代码测试
4.1 ✌ 导库
import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import Normalizer
4.2 ✌ 创建数据
x=np.random.randint(1,1000,(10000,5)) x=pd.DataFrame(x)
4.3 ✌ 查看原始数据的均值、方差
display(x.mean()) display(x.var())
4.4 ✌ 归一化
from sklearn.preprocessing import MinMaxScaler x_min=MinMaxScaler().fit_transform(x) x_min=pd.DataFrame(x_min) display(x_min.mean()) display(x_min.var())
4.5 ✌ 标准化
from sklearn.preprocessing import StandardScaler x_std=StandardScaler().fit_transform(x) x_std=pd.DataFrame(x_std) display(x_std.mean()) display(x_std.var())
4.6 ✌ 正则化
from sklearn.preprocessing import Normalizer x_nor=Normalizer().fit_transform(x) x_nor=pd.DataFrame(x_nor)