Python机器学习算法入门教程（三）-阿里云开发者社区

构建线性回归模型

本节讲解如何构建线性回归算法中的“线性模型”，所谓“线性”其实就是一条“直线”。因此，本节开篇首先普及一下初中的数学知识“一次函数”。

一次函数

一次函数就是最简单的“线性模型”，其直线方程表达式为y = kx + b，其中 k 表示斜率，b 表示截距，x 为自变量，y 表示因变量。下面展示了 y = 2x + 3 的函数图像：

函数中斜率 k 与截距 b 控制着“直线”的“旋转”与“平移”。如果斜率 k 逐渐减小，则“直线”会向着“顺时针”方向旋转，为 k= 0 的时候与 x 轴平行。截距 b 控制“直接”的上下平移，b 为正数则向上平移，b 为负数则表示向下平移。

在机器学习中斜率 k 通常用 w 表示，也就是权重系数，因此“线性方程”通过控制 w 与 b 来实现“直线”与数据点最大程度的“拟合”。如下图（黑色 x 号代表数据样本）所示：

线性拟合

线性方程不能完全等同于“直线方程”，因为前者可以描述多维空间内直接，而后者只能描述二维平面内的 x 与 y 的关系。

构建线性模型

在线性回归问题中数据样本会呈现“线性”分布的态势，因此我们使用“线性方程”来最大程度的“拟合数据”。线性方程预测的结果具有连续性，下面通过示例简单说明：小亮今年 8 岁，去年 7 岁，前年 6 岁，那么他明年几岁呢？估计你闭着眼都能想到答案，但是我们要从机器学习的角度去看待这个问题。

首先年龄、时间是一组连续性的数据，也就是因变量随着自变量规律性地连续增长，显然它是一个“回归问题”。下面把上述数据以二维数组的形式表示出来，构建一个数据集，如下所示：

[[2021,8],

[2020,7],

[2019,6]]

我们知道两个点就可以确定一条“直线”，因此将两组数据带入 y = kx + b，最终求得“线程方程”：

y = x - 2013

上述函数就是所谓的“假设函数”，通过它即可实现对结果的预测。这个函数的图像如下所示：

假设函数图像

从上述函数图像可以看出，直线对数据样本恰好“拟合”。这是最标准的拟合直线，通过它就可以“预测”出小亮明年的年龄了。上述示例就构建了一个简单的的“线性模型”。读到这里你会惊叹“怎么如此简单”，其实线性模型就是这么简单。对于机器学习而言，最关键的就是“学习”，在大量的数据中，通过不断优化参数，找到一条最佳的拟合“直线”，最终预测出一个理想的结果。

提示：上述示例是一个理想化的“线性模型”，在实际应用中要复杂的多，不过“万变不离其宗”

机器学习是一门数学、统计学、计算机科学的结合技术，因此它有着独特的知识体系，比如会将数据集分为“训练集”与“测试集”，而且还会通过“损失函数”来不断优化预测结果，关于这些知识会在后需内容详细介绍。

梯度下降求极值

上面我们从数学的角度解释了假设函数和损失函数，我们最终的目的要得到一个最佳的“拟合”直线，因此就需要将损失函数的偏差值减到最小，我们把寻找极小值的过程称为“优化方法”，常用的优化方法有很多，比如共轭梯度法、梯度下降法、牛顿法和拟牛顿法。你可能对于上述方法感到陌生，甚至于害怕，其实大可不必，它们只不过应用了一些数学公式而已。

本节我们重点学习梯度下降法（Gradient Descent），在认识该方法之前，我们先复习一下高中时的数学知识。

导数

导数也叫导函数，或者微商，它是微积分中的重要基础概念，从物理学角度来看，导数是研究物体某一时刻的瞬时速度，比如你开车从家 8:00 出发到公司上班，9:00 到到达公司，这一个小时内的平均车速是 80km/h，而途中8:15:30这一时刻的速度，就被称为瞬时速度，此刻的速度可能是 100km/h，也可能是 20km/h。而从几何意义上来讲，你可以把它理解为该函数曲线在一点上的切线斜率。

导数有其严格的数学定义，它巧妙的利用了极限的思想，也就是无限趋近于 0 的思想。设函数 y=f(x) 在点 x0 的某个邻域内有定义，当自变量 x 在 x0 处有增量 Δx，(x0+Δx）也在该邻域内时，相应地函数取得增量 Δy=f(x0+Δx)-f(x0)；如果 Δy 与 Δx 之比当 Δx→0 时极限存在，则称函数 y=f(x) 在点 x0 处可导，并称这个极限为函数 y=f(x) 在点 x0 处的导数记做：

那么什么样的函数具有导数呢？是不是所有的函数都有导数？当然不是，而且函数也不一定在其所有点上都有导数。如果某函数在某一点导数存在，则称其在这一点可导，否则称为不可导。可导的函数一定连续；不连续的函数一定不可导。

导数的发明者是伟大的科学家牛顿与布莱尼茨，它是微积分的一个重要的支柱。在机器学习中，我们只需会用前辈科学家们留下来的知识就行了，比如熟悉常见的导函数公式，以下列举了常用的导数公式：

偏导数

偏导数虽然和导数只有一字之差，但是却相差甚多，从它们的定义来看，偏导数是指对含有两个自变量的函数中的一个自变量求导，也就是说偏导数要求函数必须具备两个自变量。比如拿 z=f(x,y) 举例，如果只有自变量x变化，而自变量y固定（即看作常量），这时它就是x的一元函数，这函数对x的导数，称为二元函数z对于x的偏导数，记做 fx(x,y) 。

有如下函数 z = x2 + 3xy + y2，分别求 z 对于 x 、y 的偏导数。如下所示：

fx(x,y) = 2x + 3y # 关于 x 的偏导数

fy(x,y) = 3x + 2y # 关于 y 的偏导数

当求 x 的偏导时就要把 y 当做常数项来对待，而当求 y 的偏导时就要把 x 当做常数项对待。关于偏导数还会涉及到高阶偏，如果感兴趣的话可以点击了解一下。

梯度下降

梯度下降是机器学习中常用的一种优化方法，主要用来解决求极小值的问题，某个函数在某点的梯度指向该函数取得最大值的方向，那么它的反反向自然就是取得最小值的方向。在解决线性回归和 Logistic（逻辑）回归问题时，梯度下降方法有着广泛的应用。

梯度是微积分学的术语，它本质上是一个向量，表示函数在某一点处的方向导数上沿着特定的方向取得最大值，即函数在该点处沿着该方向变化最快，变化率最大。梯度下降法的计算过程就是沿梯度方向求解极小值，当然你也可以沿梯度上升的方向求解极大值。

那么如何能够更好的理解“梯度下降”呢？如果不考虑其他外在因素，其实你可以把它想象成“下山”的场景，如何从一个高山上以最快的时间走到山脚下呢？其实很简单，以你所在的当前位置为基准，寻找该位置最陡峭的地方，然后沿着此方向向下走，并且每走一段距离，都要寻找当前位置“最陡峭的地方”，反复采用上述方法，最终就能以最快的时间抵达山脚下。

在这个下山的过程中，“寻找所处位置最陡峭的地方，并沿此位置向下走”最为关键，如果把这个做法对应到函数中，就是找到“给定点的梯度”而梯度的方向就是函数值变化最快的方向。

从上述描述中，你可能感觉到平淡无奇，其实每一个词语都蕴含着数学知识，比如“以当前所在位置为基准，找到最陡峭的地方”从数学角度来讲就是找到所在点的“切线”方向，也就是对这点“求导”，然后循着切线轨迹点反复使用此方法，就可以到达极小值点。

在“线性回归：损失函数和假设函数”一节中，我们讲解了线性回归的损失函数，而梯度下降作为一种优化方法，其目的是要使得损失值最小。因此“梯度下降”就需要控制损失函数的w和b参数来找到最小值。比如控制 w 就会得到如下方法：

w新=w旧 - 学习率 * 损失值

通过梯度下降计算极小值时，需要对损失函数的w求偏导求得，这个偏导也就是“梯度”，通过损失值来调节w，不断缩小损失值直到最小，这也正是梯度下降的得名来由。

“学习率”是一个由外部输入的参数，被称为“超参数”，可以形象地把它理解为下山时走的“步长”大小，想要 w 多调整一点，就把学习率调高一点。不过学习率也不是越高越好，过高的学习率可能导致调整幅度过大，导致无法求得真正的最小值。当损失函数取得极小值时，此时的参数值被称为“最优参数”。因此，在机器学习中最重要的一点就是寻找“最优参数”。

梯度下降是个大家族，它有很多成员，比如批量梯度下降（BGD）、随机梯度下降（SGD）、小批量梯度下降（MBGD），其中批量梯度下降是最常用的，相关内容后续会详细介绍。

sklearn应用线性回归算法

Scikit-learn 简称 sklearn 是基于 Python 语言实现的机器学习算法库，它包含了常用的机器学习算法，比如回归、分类、聚类、支持向量机、随机森林等等。同时，它使用 NumPy 库进行高效的科学计算，比如线性代数、矩阵等等。

Scikit-learn 是 GitHub 上最受欢迎的机器学习库之一，其最新版本是 2020 年12 月发布的 scikit-learn 0.24.1。

Scikit-learn 涵盖了常用的机器学习算法，而且还在不断的添加完善，对于本教程所涉及的机器学习算法它都做了良好的 API 封装，以供直接调用。你可以根据不同的模型进行针对性的选择。下面介绍 sklearn 中常用的算法库：

·linear_model：线性模型算法族库，包含了线性回归算法，以及 Logistic 回归算法，它们都是基于线性模型。

.naiv_bayes：朴素贝叶斯模型算法库。

.tree：决策树模型算法库。

.svm：支持向量机模型算法库。

.neural_network：神经网络模型算法库。

.neightbors：最近邻算法模型库。

实现线性回归算法

下面我们是基于 sklearn 实现线性回归算法，大概可以分为三步，首先从 sklearn 库中导入线性模型中的线性回归算法，如下所示：

from sklearn import linear_model

其次训练线性回归模型。使用 fit() 喂入训练数据，如下所示：

model = linear_model.LinearRegression()
model.fit(x, y)

最后一步就是对训练好的模型进行预测。调用 predict() 预测输出结果， “x_”为输入测试数据，如下所示：

model.predict(x_)

你可能会感觉 so easy，其实没错，使用 sklearn 算法库实现线性回归就是这么简单，不过上述代码只是一个基本的框架，要想真正的把这台“机器”跑起来，我们就得给它喂入数据，因此准备数据集是必不可少的环节。数据集的整理也是一门专业的知识，会涉及到数据的收集、清洗，也就是预处理的过程，比如均值移除、归一化等操作，如果熟悉 Pandas 的话应该了解，因此这里不做重点讲解。

准备数据

下面我们手动生成一个数据集，如下所示：

# 使用numpy准备数据集
import numpy as np
# 准备自变量x,-3到3的区间均分间隔30份数
x = np.linspace(3,6.40)
#准备因变量y，这一个关于x的假设函数
y = 3 * x + 2
2) 实现算法
#使用matplotlib绘制图像，使用numpy准备数据集
import  matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_model
#准备自变量x，生成数据集，3到6的区间均分间隔30份数
x = np.linspace(3,6.40)
#准备因变量y，这一个关于x的假设函数
y = 3 * x + 2
#由于fit 需要传入二维矩阵数据，因此需要处理x，y的数据格式,将每个样本信息单独作为矩阵的一行
x=[[i] for i in x]
y=[[i] for i in y]
# 构建线性回归模型
model=linear_model.LinearRegression()
# 训练模型，"喂入"数据
model.fit(x,y)
# 准备测试数据 x_，这里准备了三组，如下：
x_=[[4],[5],[6]]
# 打印预测结果
y_=model.predict(x_)
print(y_)
#查看w和b的
print("w值为:",model.coef_)
print("b截距值为:",model.intercept_)
#数据集绘制,散点图，图像满足函假设函数图像
plt.scatter(x,y)
plt.show()

通过线性回归得到的线性函数图像，如下所示：

打印输出结果如下所示：

测试集输出结果：

[[14.]

[17.]

[20.]]

w值为: [[3.]]

b截距值为: [2.]

通过上述代码我们就实现“线性回归”的过程，但是在实际情况中，我们要面临的数据集要复杂的多，绝大多数情况不会这样理想，都会存在一些波动。在生成数据集的代码段内添加以下代码，如下所示：

#准备自变量x，生成数据集，3到6的区间均分间隔30份数
x = np.linspace(3,6.40)
#准备因变量y，这一个关于x的假设函数
y = 3 * x + 2
# 添加代码，扰乱点的分布
x = x + np.random.rand(40)

利用 NumPy 的 random. rand() 随机生成 0 - 1 之前的波动数值，从而改变数据点的分布情况，如下所示：

虽然做标签散乱分布，但是使用线性回归算法学习依然可以得到线性函数，此时 w 与 b 的输出结果如下所示：

w值为: [[2.68673744]]

b截距值为: [0.80154335]

绘制最佳拟合直线，程序代码如下：

#使用matplotlib绘制图像，使用numpy准备数据集
import  matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_model
#准备自变量x，生成数据集，-3到3的区间均分间隔30份数
x = np.linspace(3,6,40)
#准备因变量y，这一个关于x的假设函数
y=3 * x + 2
x = x + np.random.rand(40)
#准备因变量y，这一个关于x的假设函数
#由于fit 需要传入二维矩阵数据，因此需要处理x，y数据格式,将每个样本信息单独作为矩阵的一行
x=[[i] for i in x]
y=[[i] for i in y]
model=linear_model.LinearRegression()
model.fit(x,y)
#准备测试数据 x_，这里准备了三组，如下：
x_=[[4],[5],[6]]
# 打印预测结果
y_=model.predict(x_)
print(y_)
#查看w和b的
print("w值为:",model.coef_)
print("b截距值为:",model.intercept_)
#数据集绘制,散点图，图像满足函假设函数图像
plt.scatter(x,y)
#绘制最佳拟合直线
plt.plot(x_,y_,color="red",linewidth=3.0,linestyle="-")
plt.legend(["func","Data"],loc=0)
plt.show()

函数图像如下所示：

线性回归步骤

通过上述代码了解了如何使用 Python sklearn 实现线性回归，下面从总整体出发再次审视该算法：掌握线性回归算法的具体步骤。

线性回归适用于有监督学习的回归问题，首先在构建线性模型前，需要准备好待输入的数据集，数据集按照需要可划分为训练集和测试集，使用训练集中的向量 X 与向量 Y 进行模型的训练，其中向量 Y 表示对应 X 的结果数值(也就是“参考答案”)；而输出时需要使用测试集，输入测试 X 向量输出预测结果向量 Y。

其实线性回归主要解决了以下三个问题：

第一，为假设函数设定了参数 w，通过假设函数画出线性“拟合”直线。

第二，将预测值带入损失函数，计算出一个损失值。

第三，通过得到的损失值，利用梯度下降等优化方法，不断调整 w 参数，使得损失值取得最小值。我们把这个优化参数值的过程叫做“线性回归”的学习过程。

线性回归算法简单，且容易理解，但这并不影响它的广泛应用，比如经济金融领域实现股票的预测，以及著名的波士顿房价预测，这些都是线性回归的典型应有，因此我们要走出一个误区，不要感觉算法简单就不重要，机器学习虽然算法众多，但每一种算法都有其存在的理由，而掌握了线性回归就相当于拿到了算法世界的入场券。

💕Final~

以上就是这篇文章的全部内容了，希望本文《Python机器学习算法入门教程（三）》的内容对大家的学习或者工作具有一定的参考学习价值，bye~

Python机器学习算法入门教程（三）

构建线性回归模型

一次函数

构建线性模型

假设函数图像

梯度下降求极值

导数

偏导数

梯度下降

sklearn应用线性回归算法

实现线性回归算法

准备数据

线性回归步骤

💕Final~

热门文章

最新文章

相关课程

相关电子书

相关实验场景