【机器学习】多项式回归

简介: 【1月更文挑战第27天】【机器学习】多项式回归

 升维的目的是为了去解决欠拟合的问题的,也就是为了提高模型的准确率为目的的,因为当维度不够时,说白了就是对于预测结果考虑的因素少的话,肯定不能准确的计算出模型。

image.png

  在做升维的时候,最常见的手段就是将已知维度进行相乘(或者自乘)来构建新的维度,如下图所示。普通线性方程,无法拟合规律,必须是多项式,才可以完美拟合曲线规律,图中是二次多项式。

image.png

  对于多项式回归来说主要是为了扩展线性回归算法来适应更广泛的数据集,比如我们数据集有两个维度 $x_1、x_2$,那么用多元线性回归公式就是:$\hat{y} = w_0 + w_1x_1 + w_2x_2$,当我们使用二阶多项式升维的时候,数据集就从原来的 $x_1、x_2$扩展成了$x_1、x_2、x_1^2、x_2^2、x_1x_2$ 。因此多元线性回归就得去多计算三个维度所对应的w值:$\hat{y} = w_0 + w_1x_1 + w_2x_2 + w_3x_1^2 + w_4x_2^2 + w_5x_1x_2$ 。

  此时拟合出来的方程就是曲线,可以解决一些线性回归的欠拟合问题!

多项式回归实战1.0

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# 1、创建数据,并进行可视化
X = np.linspace(-1,11,num = 100)
y = (X - 5)**2 + 3*X -12 + np.random.randn(100)
X = X.reshape(-1,1)
plt.scatter(X,y)

# 2、创建预测数据
X_test = np.linspace(-2,12,num = 200).reshape(-1,1)

# 3、不进行升维 + 普通线性回归
model_1 = LinearRegression()
model_1.fit(X,y)
y_test_1 = model_1.predict(X_test)
plt.plot(X_test,y_test,color = 'red')

# 多项式升维 + 普通线性回归
X = np.concatenate([X,X**2],axis = 1)
model_2 = LinearRegression()
model_2.fit(X,y)
# 5、测试数据处理,并预测
X_test = np.concatenate([X_test,X_test**2],axis = 1)
y_test_2 = model_2.predict(X_test)

# 6、数据可视化,切片操作
plt.plot(X_test[:,0],y_test_2,color = 'green')

结论:

  • 不进行多项式升维,拟合出来的曲线,是线性的直线,和目标曲线无法匹配
  • 使用np.concatenate()进行简单的,幂次合并,注意数据合并的方向axis = 1
  • 数据可视化时,注意切片,因为数据升维后,多了平方这一维

image.png

多项式回归实战2.0

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures,StandardScaler
from sklearn.linear_model import SGDRegressor

# 1、创建数据,并进行可视化
X = np.linspace(-1,11,num = 100)
y = (X - 5)**2 + 3*X -12 + np.random.randn(100)
X = X.reshape(-1,1)
plt.scatter(X,y)

# 2、创建预测数据
X_test = np.linspace(-2,12,num = 200).reshape(-1,1)

# 3、使用PolynomialFeatures进行特征升维
poly = PolynomialFeatures()
poly.fit(X,y)
X = poly.transform(X)
s = StandardScaler()
X = s.fit_transform(X)
# model = SGDRegressor(penalty='l2',eta0 = 0.0001,max_iter = 10000)
model = SGDRegressor(penalty='l2',eta0 = 0.01)
model.fit(X,y)

# 4、预测数据
X_test = poly.transform(X_test)
X_test_norm = s.transform(X_test)
y_test = model.predict(X_test_norm)
plt.plot(X_test[:,1],y_test,color = 'green')

结论:

  • eta0表示学习率,设置合适的学习率,才能拟合成功
  • 多项式升维,需要对数据进行Z-score归一化处理,效果更佳出色
  • SGD随机梯度下降需要调整参数,以使模型适应数据

image.png

相关文章
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】多项式回归、K近邻KNN回归的讲解及实战(图文解释 附源码)
【Python机器学习】多项式回归、K近邻KNN回归的讲解及实战(图文解释 附源码)
35 0
|
3月前
|
机器学习/深度学习
机器学习第5天:多项式回归与学习曲线
机器学习第5天:多项式回归与学习曲线
30 0
|
9月前
|
机器学习/深度学习 数据可视化 算法
机器学习系列6 使用Scikit-learn构建回归模型:简单线性回归、多项式回归与多元线性回归
在本文中,我们以美国南瓜数据为例,讲解了三种线性回归的原理与使用方法,探寻数据之间的相关性,并构建了6种线性回归模型。将准确率从一开始的0.04提升到0.96.
214 0
|
10月前
|
机器学习/深度学习 算法
学习笔记: 机器学习经典算法-多项式回归
机器学习经典算法-个人笔记和学习心得分享
92 0
|
机器学习/深度学习 算法
机器学习中的数学原理——多项式回归
机器学习中的数学原理——多项式回归
282 0
|
机器学习/深度学习
【机器学习知识点】2. 输入一个多项式,返回该多项式的一阶导数多项式
【机器学习知识点】2. 输入一个多项式,返回该多项式的一阶导数多项式
|
机器学习/深度学习 算法 Python
【阿旭机器学习实战】【10】朴素贝叶斯模型原理及3种贝叶斯模型对比:高斯分布朴素贝叶斯、多项式分布朴素贝叶斯、伯努利分布朴素贝叶斯
【阿旭机器学习实战】【10】朴素贝叶斯模型原理及3种贝叶斯模型对比:高斯分布朴素贝叶斯、多项式分布朴素贝叶斯、伯努利分布朴素贝叶斯
【阿旭机器学习实战】【10】朴素贝叶斯模型原理及3种贝叶斯模型对比:高斯分布朴素贝叶斯、多项式分布朴素贝叶斯、伯努利分布朴素贝叶斯
|
机器学习/深度学习
|
机器学习/深度学习 数据可视化 算法
机器学习(十)线性&多项式回归之房价与房屋尺寸关系
 线性回归(Linear Regression)是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分 析方法。
361 0
机器学习(十)线性&多项式回归之房价与房屋尺寸关系
|
机器学习/深度学习 Python
Python3入门机器学习 - 多项式回归与学习曲线
非线性方程的拟合,例如 y=x^2+0.5x+1 , 就是将x^2看作X的一个特征值 #准备数据 import numpy as np import matplotlib.
1509 0