【机器学习】线性回归——最小二乘法的概率解释高斯噪声(理论+图解+公式推导)

简介: 【机器学习】线性回归——最小二乘法的概率解释高斯噪声(理论+图解+公式推导)

2021人工智能领域新星创作者,带你从入门到精通,该博客每天更新,逐渐完善机器学习各个知识体系的文章,帮助大家更高效学习。


概述

对于之前的文章我们使用了最小二乘估计然后获得了损失函数

L ( w ) = ∑ i = 1 m ( w T x i − y i ) 2 L(w)=\sum_{i=1}^m(w^Tx_i-y_i)^2L(w)=i=1m(wTxiyi)2

然后求解极值点,然后获得

w ∗ = ( X T X ) − 1 X T Y w^*=(X^TX)^{-1}X^TYw=(XTX)1XTY

对于之前获得的结论都是基于最小二乘估计(LSE)得来的,本节从一种概率角度获得我们的最优解w

高斯噪声

如果我们的模型完全拟合了我们的数据,那么此时误差就为0,但是在现实中,我们的线性模型是很难完全拟合所有数据的,肯定是会存在一定的误差,这个误差我们采用噪声的方式进行表达,也就是我们此时满足:

y = f ( w ) + ϵ = w T x + ϵ y=f(w)+\epsilon\\=w^Tx+\epsilony=f(w)+ϵ=wTx+ϵ

其中我们假设噪声服从高斯分布,即:

ϵ ∼ N ( 0 , σ 2 ) \epsilon\sim N(0,\sigma^2)ϵN(0,σ2)

由方差和期望公式可知,我们的y同样服从高斯分布,即:

y ∼ N ( w T x , σ 2 ) y \sim N(w^Tx,\sigma^2)yN(wTx,σ2)

也就是:

P ( y ∣ w ; x i ) = 1 2 π σ e x p ( − ( y − w T x ) 2 2 σ 2 ) P(y|w;x_i)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-w^Tx)^2}{2\sigma^2})P(yw;xi)=2πσ1exp(2σ2(ywTx)2)

此时我们采用概率进行构造损失函数,采用对数似然估计,使我们的Y服从该分布的概率最大:

即:

L ( w ) = l o g P ( Y ∣ w ; X ) = l o g ∏ i = 1 m P ( y i ∣ w ; x i ) = ∑ i = 1 m l o g P ( y i ∣ w ; x i ) = ∑ i = 1 m l o g 1 2 π σ e x p ( − ( y − w T x ) 2 2 σ 2 ) = ∑ i = 1 m [ l o g 1 2 π σ − 1 2 σ 2 ( y i − w T x i ) 2 ] L(w)=logP(Y|w;X)\\=log\prod_{i=1}^mP(y_i|w;x_i)\\=\sum_{i=1}^mlogP(y_i|w;x_i)\\=\sum_{i=1}^mlog\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-w^Tx)^2}{2\sigma^2})\\=\sum_{i=1}^m[log\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}(y_i-w^Tx_i)^2]L(w)=logP(Yw;X)=logi=1mP(yiw;xi)=i=1mlogP(yiw;xi)=i=1mlog2πσ1exp(2σ2(ywTx)2)=i=1m[log2πσ12σ21(yiwTxi)2]

上面的 P ( Y ∣ w ; X ) P(Y|w;X)P(Yw;X) 可以拆分成 ∏ i = 1 m P ( y i ∣ w ; x i ) \prod_{i=1}^mP(y_i|w;x_i)i=1mP(yiw;xi) 是因为假设我们的样本之间是独立同分布的,每个样本之间相互独立,互不影响。

然后我们的目的是极大似然函数,所以有:

w ∗ = a r g m a x w L ( w ) = a r g m a x w ∑ i = 1 m [ l o g 1 2 π σ − 1 2 σ 2 ( y i − w T x i ) 2 ] = a r g m i n w ∑ i = 1 m ( y i − w T x ) 2 w^*=argmax_wL(w)\\=argmax_w\sum_{i=1}^m[log\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}(y_i-w^Tx_i)^2]\\=argmin_w\sum_{i=1}^m(y_i-w^Tx)^2w=argmaxwL(w)=argmaxwi=1m[log2πσ12σ21(yiwTxi)2]=argminwi=1m(yiwTx)2

可以看到最终的化简结果和我们使用最小二乘估计得到的结果一致,所以我们可以得出结论:

L S E < = > M L E ( ϵ ∼ N ( 0 , σ 2 ) ) LSE<=>MLE(\epsilon \sim N(0,\sigma^2))LSE<=>MLE(ϵN(0,σ2))

就是我们的最小二乘估计和概率极大似然估计是等价的,前提满足的条件就是噪声满足高斯分布。


目录
相关文章
|
6月前
|
机器学习/深度学习 算法 TensorFlow
机器学习算法简介:从线性回归到深度学习
【5月更文挑战第30天】本文概述了6种基本机器学习算法:线性回归、逻辑回归、决策树、支持向量机、随机森林和深度学习。通过Python示例代码展示了如何使用Scikit-learn、statsmodels、TensorFlow库进行实现。这些算法在不同场景下各有优势,如线性回归处理连续值,逻辑回归用于二分类,决策树适用于规则提取,支持向量机最大化类别间隔,随机森林集成多个决策树提升性能,而深度学习利用神经网络解决复杂模式识别问题。理解并选择合适算法对提升模型效果至关重要。
245 4
|
18天前
|
机器学习/深度学习 数据采集 算法
探索机器学习中的线性回归
【10月更文挑战第25天】本文将深入浅出地介绍线性回归模型,一个在机器学习领域中广泛使用的预测工具。我们将从理论出发,逐步引入代码示例,展示如何利用Python和scikit-learn库实现一个简单的线性回归模型。文章不仅适合初学者理解线性回归的基础概念,同时也为有一定基础的读者提供实践指导。
|
1月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
探索机器学习:从线性回归到深度学习
在这篇文章中,我们将一起踏上一场激动人心的旅程,穿越机器学习的广阔天地。我们将从最基本的线性回归开始,逐步深入到复杂的深度学习模型。无论你是初学者还是有经验的开发者,这篇文章都将为你提供新的视角和深入的理解。让我们一起探索这个充满无限可能的世界吧!
|
1月前
|
机器学习/深度学习 程序员
【机器学习】朴素贝叶斯原理------迅速了解常见概率的计算
【机器学习】朴素贝叶斯原理------迅速了解常见概率的计算
|
1月前
|
机器学习/深度学习 API
机器学习入门(七):线性回归原理,损失函数和正规方程
机器学习入门(七):线性回归原理,损失函数和正规方程
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习:从线性回归到深度学习
【9月更文挑战第4天】在这篇文章中,我们将深入探讨机器学习的世界,从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将通过实际的代码示例,揭示这些模型背后的数学原理,以及如何在现实世界的问题中应用它们。无论你是初学者还是有经验的数据科学家,这篇文章都将为你提供新的视角和深入的理解。
|
2月前
|
机器学习/深度学习 数据采集 存储
一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。
300 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习的奥秘:从线性回归到深度学习
【8月更文挑战第26天】本文将带领读者走进机器学习的世界,从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将探讨各种算法的原理、应用场景以及实现方法,并通过代码示例加深理解。无论你是初学者还是有一定经验的开发者,这篇文章都将为你提供有价值的知识和技能。让我们一起揭开机器学习的神秘面纱,探索这个充满无限可能的领域吧!
|
3月前
|
机器学习/深度学习 人工智能 算法
探索机器学习:Python中的线性回归模型实现
【8月更文挑战第24天】在机器学习的世界中,线性回归是最基础也是应用最广泛的算法之一。本文将通过Python编程语言,使用scikit-learn库来实现一个简单的线性回归模型。我们将从理论出发,逐步深入到代码实现,最后通过一个实际数据集来验证模型的效果。无论你是机器学习的初学者,还是想要复习线性回归的基础知识,这篇文章都将为你提供有价值的信息。让我们一起踏上这段探索之旅吧!
|
5月前
|
机器学习/深度学习 数据挖掘 Python
机器学习之pandas基础——pandas与概率论的简短碰面
机器学习之pandas基础——pandas与概率论的简短碰面
49 4

热门文章

最新文章