sklearn应用线性回归算法

2024-03-29 363

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： sklearn应用线性回归算法

Scikit-learn 简称 sklearn 是基于 Python 语言实现的机器学习算法库，它包含了常用的机器学习算法，比如回归、分类、聚类、支持向量机、随机森林等等。同时，它使用 NumPy 库进行高效的科学计算，比如线性代数、矩阵等等。

Scikit-learn 是 GitHub 上最受欢迎的机器学习库之一，其最新版本是 2020 年12 月发布的 scikit-learn 0.24.1。

提示：Scikit-learn 官方网站：scikit-learn: machine learning in Python — scikit-learn 1.3.0 documentation

Scikit-learn 涵盖了常用的机器学习算法，而且还在不断的添加完善，对于本教程所涉及的机器学习算法它都做了良好的 API 封装，以供直接调用。你可以根据不同的模型进行针对性的选择。下面介绍 sklearn 中常用的算法库：

·linear_model：线性模型算法族库，包含了线性回归算法，以及 Logistic 回归算法，它们都是基于线性模型。
.naiv_bayes：朴素贝叶斯模型算法库。
.tree：决策树模型算法库。
.svm：支持向量机模型算法库。
.neural_network：神经网络模型算法库。
.neightbors：最近邻算法模型库。

实现线性回归算法

下面我们是基于 sklearn 实现线性回归算法，大概可以分为三步，首先从 sklearn 库中导入线性模型中的线性回归算法，如下所示：

from sklearn import linear_model

其次训练线性回归模型。使用 fit() 喂入训练数据，如下所示：

model = linear_model.LinearRegression()  线性回归
model.fit(x, y)

最后一步就是对训练好的模型进行预测。调用 predict() 预测输出结果， “x_”为输入测试数据，如下所示：

model.predict(x_)

你可能会感觉 so easy，其实没错，使用 sklearn 算法库实现线性回归就是这么简单，不过上述代码只是一个基本的框架，要想真正的把这台“机器”跑起来，我们就得给它喂入数据，因此准备数据集是必不可少的环节。数据集的整理也是一门专业的知识，会涉及到数据的收集、清洗，也就是预处理的过程，比如均值移除、归一化等操作，如果熟悉 Pandas 的话应该了解，因此这里不做重点讲解。

1) 准备数据

下面我们手动生成一个数据集，如下所示：

使用numpy准备数据集
import numpy as np
准备自变量x,-3到3的区间均分间隔30份数
x = np.linspace(3,6.40)
#准备因变量y，这一个关于x的假设函数
y = 3 * x + 2

2) 实现算法

#使用matplotlib绘制图像，使用numpy准备数据集

import matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_model

#准备自变量x，生成数据集，3到6的区间均分间隔30份数

x = np.linspace(3,6.40)

#准备因变量y，这一个关于x的假设函数

y = 3 * x + 2

#由于fit 需要传入二维矩阵数据，因此需要处理x，y的数据格式,将每个样本信息单独作为矩阵的一行

x=[[i] for i in x]

y=[[i] for i in y]

构建线性回归模型

model=linear_model.LinearRegression()

训练模型，"喂入"数据

model.fit(x,y)

准备测试数据 x_，这里准备了三组，如下：

x_=[[4],[5],[6]]

打印预测结果

y_=model.predict(x_)

print(y_)

#查看w和b的

print("w值为:",model.coef_)

print("b截距值为:",model.intercept_)

#数据集绘制,散点图，图像满足函假设函数图像

plt.scatter(x,y)

plt.show()

通过线性回归得到的线性函数图像，如下所示：

图1：线性回归函数图像

打印输出结果如下所示：

测试集输出结果：
[[14.]
[17.]
[20.]]
w值为: [[3.]]
b截距值为: [2.]

通过上述代码我们就实现“线性回归”的过程，但是在实际情况中，我们要面临的数据集要复杂的多，绝大多数情况不会这样理想，都会存在一些波动。在生成数据集的代码段内添加以下代码，如下所示：

#准备自变量x，生成数据集，3到6的区间均分间隔30份数
x = np.linspace(3,6.40)
#准备因变量y，这一个关于x的假设函数
y = 3 * x + 2
# 添加代码，扰乱点的分布
x = x + np.random.rand(40)

利用 NumPy 的 random. rand() 随机生成 0 - 1 之前的波动数值，从而改变数据点的分布情况，如下所示：

图2：修改后的散点分布

虽然做标签散乱分布，但是使用线性回归算法学习依然可以得到线性函数，此时 w 与 b 的输出结果如下所示：

w值为: [[2.68673744]]
b截距值为: [0.80154335]

绘制最佳拟合直线，程序代码如下：

#使用matplotlib绘制图像，使用numpy准备数据集
import matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_model
#准备自变量x，生成数据集，-3到3的区间均分间隔30份数
x = np.linspace(3,6,40)
#准备因变量y，这一个关于x的假设函数
y=3 * x + 2
x = x + np.random.rand(40)
#准备因变量y，这一个关于x的假设函数
#由于fit 需要传入二维矩阵数据，因此需要处理x，y数据格式,将每个样本信息单独作为矩阵的一行
x=[[i] for i in x]
y=[[i] for i in y]
model=linear_model.LinearRegression()
model.fit(x,y)
#准备测试数据 x_，这里准备了三组，如下：
x_=[[4],[5],[6]]
打印预测结果
y_=model.predict(x_)
print(y_)
#查看w和b的
print("w值为:",model.coef_)
print("b截距值为:",model.intercept_)
#数据集绘制,散点图，图像满足函假设函数图像
plt.scatter(x,y)
#绘制最佳拟合直线
plt.plot(x_,y_,color="red",linewidth=3.0,linestyle="-")
plt.legend(["func","Data"],loc=0)
plt.show()

函数图像如下所示：

图3：拟合直线绘制

线性回归步骤

通过上述代码了解了如何使用 Python sklearn 实现线性回归，下面从总整体出发再次审视该算法：掌握线性回归算法的具体步骤。

线性回归适用于有监督学习的回归问题，首先在构建线性模型前，需要准备好待输入的数据集，数据集按照需要可划分为训练集和测试集，使用训练集中的向量 X 与向量 Y 进行模型的训练，其中向量 Y 表示对应 X 的结果数值(也就是“参考答案”)；而输出时需要使用测试集，输入测试 X 向量输出预测结果向量 Y。

其实线性回归主要解决了以下三个问题：

第一，为假设函数设定了参数 w，通过假设函数画出线性“拟合”直线。
第二，将预测值带入损失函数，计算出一个损失值。
第三，通过得到的损失值，利用梯度下降等优化方法，不断调整 w 参数，使得损失值取得最小值。我们把这个优化参数值的过程叫做“线性回归”的学习过程。

线性回归算法简单，且容易理解，但这并不影响它的广泛应用，比如经济金融领域实现股票的预测，以及著名的波士顿房价预测，这些都是线性回归的典型应有，因此我们要走出一个误区，不要感觉算法简单就不重要，机器学习虽然算法众多，但每一种算法都有其存在的理由，而掌握了线性回归就相当于拿到了算法世界的入场券。

sklearn实现朴素贝叶斯

在 sklearn 库中，基于贝叶斯定理的算法集中在 sklearn.naive_bayes 包中，根据对“似然度 P(xi|y)”计算方法的不同，我们将朴素贝叶斯大致分为三种：

多项式朴素贝叶斯（MultinomialNB）

伯努利分布朴素贝叶斯（BernoulliNB)

高斯分布朴素贝叶斯（GaussianNB）

另外一点要牢记，朴素贝叶斯算法的实现是基于假设而来，在朴素贝叶斯看来，特征之间是相互独立的，互不影响的。

高斯朴素贝叶斯适用于特征呈正态分布的，多项式贝叶斯适用于特征是多项式分布的，伯努利贝叶斯适用于二项分布。

1) 算法使用流程

使用朴素贝叶斯算法，具体分为三步：

统计样本数，即统计先验概率 P(y) 和似然度 P(x|y) 。
根据待测样本所包含的特征，对不同类分别进行后验概率计算。
比较 y1，y2，...yn 的后验概率，哪个的概率值最大就将其作为预测输出。

2) 朴素贝叶斯算法应用

下面通过鸢尾花数据集对朴素贝叶斯分类算法进行简单讲解。如下所示：

#鸢尾花数据集
from sklearn.datasets import load_iris
#导入朴素贝叶斯模型，这里选用高斯分类器
from sklearn.naive_bayes import GaussianNB
#载入数据集
X,y=load_iris(return_X_y=True)
bayes_modle**=GaussianNB()**
#训练数据
bayes_modle.fit(X,y)
#使用模型进行分类预测
result=bayes_modle.predict(X)
print(result)
#对模型评分
model_score=bayes_modle.score(X,y)
print(model_score)

输出结果：

预测分类：
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1
1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2]
模型评分：
0.96

鸢尾花数据集即iris

iris数据集文件： pan.baidu.com/s/1saL_4Q9P… .提取码：1234

数据集简介

数据集包含150个样本（数据集的行）

数据集包含4个属性（数据集的列）：Sepal Length，Sepal Width，Petal Length，Petal Width：‘feature_names’

利用numpy.ndarray存储这150x4的数据：‘data’

分类标签取自array[‘Setosa’，‘Versicolour’，‘Virginica’]：‘target_names’

Setosa，Versicolour，Virginica是数据集所包含的3中品种的鸢尾花

这3个分类标签（即150x1数据）用np.ndarray存储：‘target’

总之，这个数据存储了150x4的特征数据和150x1的分类标签，其中特征数据又放在‘data’里，分类标签放在‘target’里

sklearn应用线性回归算法

实现线性回归算法

1) 准备数据

2) 实现算法

线性回归步骤

sklearn实现朴素贝叶斯

1) 算法使用流程

2) 朴素贝叶斯算法应用

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

sklearn应用线性回归算法

实现线性回归算法

1) 准备数据

2) 实现算法

线性回归步骤

sklearn实现朴素贝叶斯

1) 算法使用流程

2) 朴素贝叶斯算法应用

热门文章

最新文章

相关课程

相关电子书