入坑机器学习:四,单变量线性回归

简介: 各类回归模型,例如线性回归、广义线性模型(Generalized Linear Model, GLM)和人工神经网络(Artificial Neural Network, ANN)通过最小化L2或L1损失对其参数进行估计。L2损失和L1损失的不同在于,L2损失通过平方计算放大了估计值和真实值的距离,因此对偏离观测值的输出给予很大的惩罚。此外,L2损失是平滑函数,在求解其优化问题时有利于误差梯度的计算;L1损失对估计值和真实值之差取绝对值,对偏离真实值的输出不敏感,因此在观测中存在异常值时有利于保持模型稳定。

开始我们机器学习的第一个算法。


还是借用吴老师的例子:


这个例子是预测住房价格的,我们要使用一个数据集,数据集包含俄勒冈州波特兰市的住房价格。在这里,我要根据不同房屋尺寸所售出的价格,画出我的数据集。比方说,如果你朋友的房子是 1250 平方尺大小,你要告诉他们这房子能卖多少钱。那么,你可以做的一件事就是构建一个模型,也许是条直线,从这个数据模型上来看,也许你可以告诉你的朋友,他能以大约 220000( 美元 ) 左右的价格卖掉这个房子。


c984e63ce1cd45eb8a8a6056dd638f07.png


一,建立模型:


以之前的房屋交易问题为例,假使我们回归问题的训练集(Training Set)如下表所示:


bfe42f78f3ff4d49bdc3bce4ad22f621.png


这就是一个监督学习算法的工作方式,我们可以看到这里有我们的训练集里房屋价格。我们把它喂给我们的学习算法,学习算法的工作了,然后输出一个函数,通常表示为小写 ℎ表示。ℎ 代表 hypothesis ( 假设 ) , ℎ 表示一个函数,输入是房屋尺寸大小,就像你朋友想出售的房屋,因此 ℎ 根据输入的 𝑥 值来得出 𝑦 值, 𝑦 值对应房子的价格 因此, ℎ 是一个从 𝑥到 𝑦 的函数映射。


二,代价函数:


4bd86a6a0e344c5c9b69fbf049f9c32b.png


接下来我们会引入一些术语我们现在要做的便是为我们的模型选择合适的 参数(parameters ) 𝜃 0 和 𝜃 1 ,在房价问题这个例子中便是直线的斜率和在 𝑦 轴上的截距。


我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差 ( modeling error )。


198d547f1e014d58a646fe70f0319eee.png


我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。 即使得代价

函数 𝐽(𝜃 0 , 𝜃 1 ) = 1/2m   ∑ (ℎ𝜃 (𝑥 (𝑖) ) − 𝑦 (𝑖) )^ 2 最小。

我们绘制一个等高线图,三个坐标分别为 𝜃 0 和 𝜃 1 和 𝐽(𝜃 0 , 𝜃 1 ) :


e99300288e83405bb8d0191721f50163.png


则可以看出在三维空间中存在一个使得 𝐽(𝜃 0 , 𝜃 1 ) 最小的点。


代价函数也被称作平方误差函数,有时也被称为平方误差代价函数。我们之所以要求出误差的平方和,是因为误差平方代价函数,对于大多数问题,特别是回归问题,都是一个合理的选择。还有其他的代价函数也能很好地发挥作用,但是平方误差代价函数可能是解决回归问题最常用的手段了。


在后续文章中,我们还会谈论其他的代价函数,但我们刚刚讲的选择是对于大多数线性回归问题非常合理的


f5fcd302674349678c5bc854b51312d3.png

56856fb212584c2b8296badfef8b5c83.png


函数分类


回归问题


3c68bfcc38d048dba1d7f362216dfcbd.png


72ce59a5201e449cbe299ff342cb186e.png


各类回归模型,例如线性回归、广义线性模型(Generalized Linear Model, GLM)和人工神经网络(Artificial Neural Network, ANN)通过最小化L2或L1损失对其参数进行估计。L2损失和L1损失的不同在于,L2损失通过平方计算放大了估计值和真实值的距离,因此对偏离观测值的输出给予很大的惩罚。此外,L2损失是平滑函数,在求解其优化问题时有利于误差梯度的计算;L1损失对估计值和真实值之差取绝对值,对偏离真实值的输出不敏感,因此在观测中存在异常值时有利于保持模型稳定。


分类问题


分类问题所对应的损失函数为0-1损失,其是分类准确度的度量,对分类正确的估计值取0,反之取1:


ed6354c6029c44f0b261a91e60d97dcd.png


0-1损失函数是一个不连续的分段函数,不利于求解其最小化问题,因此在应用可构造其代理损失(surrogate loss)。代理损失是与原损失函数具有相合性(consistency)的损失函数,最小化代理损失所得的模型参数也是最小化原损失函数的解。当一个函数是连续凸函数,并在任意取值下是0-1损失函数的上界时,该函数可作为0-1损失函数的代理函数 [5-6]  。


这里给出二元分类(binary classification)中0-1损失函数的代理损失:

铰链损失(实线)、交叉熵损失(点)、指数损失(虚线)


9dc650e85f584ab2ad077e77b4949367.png


a5166f69be2bf5f7ebc4f42800587b43.png


铰链损失函数是一个分段连续函数,其在分类器分类完全正确时取0。使用铰链损失对应的分类器是支持向量机(Support Vector Machine, SVM),铰链损失的性质决定了SVM具有稀疏性,即分类正确但概率不足1和分类错误的样本被识别为支持向量(support vector)被用于划分决策边界,其余分类完全正确的样本没有参与模型求解 [6]  。


交叉熵损失函数是一个平滑函数,其本质是信息理论(information theory)中的交叉熵(cross entropy)在分类问题中的应用。由交叉熵的定义可知,最小化交叉熵等价于最小化观测值和估计值的相对熵(relative entropy),即两者概率分布的Kullback-Leibler散度:


4c137020d4a94ab28c1b004b95157f1d.png


因此其是一个提供无偏估计的代理损失。交叉熵损失函数是表中使用最广泛的代理损失,对应的分类器例子包括logistic回归、人工神经网络和概率输出的支持向量机。


指数损失函数是表中对错误分类施加最大惩罚的损失函数,因此其优势是误差梯度大,对应的极小值问题在使用梯度算法时求解速度快。使用指数损失的分类器通常为自适应提升算法(Adaptive Boosting, AdaBoost),AdaBoot利用指数损失易于计算的特点,构建多个可快速求解的“弱”分类器成员并按成员表现进行赋权和迭代,组合得到一个“强”分类器并输出结果。


三,代价函数的直观理解:


66cf475f4abc4190b2d2f1e3ca4b209d.png

eb7bab1ee6a14e5ea0c9c3c54c219035.png


bef6860e7c7445c0b742cfc8cff7dad0.png


我们真正需要的是一种有效的算法,能够自动地找出这些使代价函数 𝐽 取最小值的参数𝜃 0 和 𝜃 1 来。


我们也不希望编个程序把这些点画出来,然后人工的方法来读出这些点的数值,这很明显不是一个好办法。我们会遇到更复杂、更高维度、更多参数的情况,而这些情况是很难画出图的,因此更无法将其可视化,因此我们真正需要的是编写程序来找出这些最小化代价函数的𝜃 0 和 𝜃 1 的值。


四,梯度下降:


梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数𝐽(𝜃0 , 𝜃 1) 的最小值。


1d669df86fe344c493855d8b56a7b939.png


梯度下降背后的思想是:开始时我们随机选择一个参数的组合 (𝜃 0 , 𝜃 1 , . . . . . . , 𝜃 𝑛 ) ,计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到一个局部最小值(local minimum ),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum ),选择不同的初始参数组合,可能会找到不同的局部最小值。


13e6221619ea4744bf00896b4a0fe657.png


批量梯度下降( batch gradient descent )算法的公式为:


8c8eb370748543fca89599ed948e5228.png


其中 𝑎 是学习率( learning rate ),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数


83bfbeb2151641e8962b25aff3822f2c.png


五,梯度下降的直观理解:


5ac3dafe6a484085b5acd76331657dc8.png


描述:对 𝜃 赋值,使得 𝐽(𝜃) 按梯度下降最快方向进行,一直迭代下去,最终得到局部最小值。其中 𝑎 是学习率( learning rate ),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。


8aa8b242ccae4e2ea0c82d1d61fe8f41.png


缺点


  • 靠近极小值时收敛速度减慢。


  • 直线搜索时可能会产生一些问题。


  • 可能会“之字形”地下降。


一文简述深度学习优化方法——梯度下降 - 知乎 (zhihu.com)

https://zhuanlan.zhihu.com/p/39842768


如果 𝑎 太小了,即我的学习速率太小,结果就是只能这样像小宝宝一样一点点地挪动,去努力接近最低点,这样就需要很多步才能到达最低点,所以如果𝑎 太小的话,可能会很慢,因为它会一点点挪动,它会需要很多步才能到达全局最低点。如果𝑎 太大,那么梯度下降法可能会越过最低点,甚至可能无法收敛,下一次迭代又移动了一大步,越过一次,又越过一次,一次次越过最低点,直到你发现实际上离最低点越来越远,所以,如果𝑎太大,它会导致无法收敛,甚至发散。


如果我们预先把 𝜃 1 放在一个局部的最低点,你认为下一步梯度下降法会怎样工作?


假设你将 𝜃 1 初始化在局部最低点,在这儿,它已经在一个局部的最优处或局部最低点。


结果是局部最优点的导数将等于零,因为它是那条切线的斜率。这意味着你已经在局部最优点,它使得𝜃 1 不再改变,也就是新的 𝜃 1 等于原来的 𝜃 1 ,因此,如果你的参数已经处于局部最低点,那么梯度下降法更新其实什么都没做,它不会改变参数的值。这也解释了为什么即使学习速率𝑎 保持不变时,梯度下降也可以收敛到局部最低点


ca4b48b164e840cd8526436ceea65865.png


六,梯度下降的线性回归:


4908b59845e241c79933b77000ae7280.png


我们刚刚使用的算法,有时也称为批量梯度下降。实际上,在机器学习中,通常不太会给算法起名字,但这个名字” 批量梯度下降 ” ,指的是在梯度下降的每一步中,我们都用到了所有的训练样本,在梯度下降中,在计算微分求导项时,我们需要进行求和运算,所以,在每一个单独的梯度下降中,我们最终都要计算这样一个东西,这个项需要对所有𝑚 个训练样本求和。因此,批量梯度下降法这个名字说明了我们需要考虑所有这一" 批 " 训练样本,而事实上,有时也有其他类型的梯度下降法,不是这种" 批量 " 型的,不考虑整个的训练集,而 每次只关注训练集中的一些小的子集。

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
探索机器学习:从线性回归到深度学习
本文将带领读者从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将通过代码示例,展示如何实现这些算法,并解释其背后的数学原理。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和知识。让我们一起踏上这段激动人心的旅程吧!
|
2月前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的线性回归模型
本文深入探讨了机器学习中广泛使用的线性回归模型,从其基本概念和数学原理出发,逐步引导读者理解模型的构建、训练及评估过程。通过实例分析与代码演示,本文旨在为初学者提供一个清晰的学习路径,帮助他们在实践中更好地应用线性回归模型解决实际问题。
|
2月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
8月前
|
机器学习/深度学习 算法 TensorFlow
机器学习算法简介:从线性回归到深度学习
【5月更文挑战第30天】本文概述了6种基本机器学习算法:线性回归、逻辑回归、决策树、支持向量机、随机森林和深度学习。通过Python示例代码展示了如何使用Scikit-learn、statsmodels、TensorFlow库进行实现。这些算法在不同场景下各有优势,如线性回归处理连续值,逻辑回归用于二分类,决策树适用于规则提取,支持向量机最大化类别间隔,随机森林集成多个决策树提升性能,而深度学习利用神经网络解决复杂模式识别问题。理解并选择合适算法对提升模型效果至关重要。
263 4
|
8月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】解释什么是线性回归?
【5月更文挑战第15天】【机器学习】解释什么是线性回归?
|
3月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
探索机器学习:从线性回归到深度学习
在这篇文章中,我们将一起踏上一场激动人心的旅程,穿越机器学习的广阔天地。我们将从最基本的线性回归开始,逐步深入到复杂的深度学习模型。无论你是初学者还是有经验的开发者,这篇文章都将为你提供新的视角和深入的理解。让我们一起探索这个充满无限可能的世界吧!
|
2月前
|
机器学习/深度学习 数据采集 算法
探索机器学习中的线性回归
【10月更文挑战第25天】本文将深入浅出地介绍线性回归模型,一个在机器学习领域中广泛使用的预测工具。我们将从理论出发,逐步引入代码示例,展示如何利用Python和scikit-learn库实现一个简单的线性回归模型。文章不仅适合初学者理解线性回归的基础概念,同时也为有一定基础的读者提供实践指导。
|
3月前
|
机器学习/深度学习 API
机器学习入门(七):线性回归原理,损失函数和正规方程
机器学习入门(七):线性回归原理,损失函数和正规方程
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习:从线性回归到深度学习
【9月更文挑战第4天】在这篇文章中,我们将深入探讨机器学习的世界,从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将通过实际的代码示例,揭示这些模型背后的数学原理,以及如何在现实世界的问题中应用它们。无论你是初学者还是有经验的数据科学家,这篇文章都将为你提供新的视角和深入的理解。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习的奥秘:从线性回归到深度学习
【8月更文挑战第26天】本文将带领读者走进机器学习的世界,从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将探讨各种算法的原理、应用场景以及实现方法,并通过代码示例加深理解。无论你是初学者还是有一定经验的开发者,这篇文章都将为你提供有价值的知识和技能。让我们一起揭开机器学习的神秘面纱,探索这个充满无限可能的领域吧!