【机器学习】线性回归——岭回归从贝叶斯角度理解(理论+图解+公式推导)

简介: 【机器学习】线性回归——岭回归从贝叶斯角度理解(理论+图解+公式推导)

2021人工智能领域新星创作者,带你从入门到精通,该博客每天更新,逐渐完善机器学习各个知识体系的文章,帮助大家更高效学习。


概述

之前讲的一篇文章使用的是频率派的角度进行论述使用L2正则化,就是在我们损失函数的后面添加L2正则项,我们说过学术界存在两个流派,分别是频率派和贝叶斯派,它们两个的主要区别就是求解问题的方式不同,一般频率派假设我们的参数都是未知变量,而贝叶斯假设我们的参数是已知的,就是参数已经符合一个分布,但是符合什么分布不清楚,这个就是我们后边要用到的先验概率。

最大后验概率估计

由于本篇文章要从贝叶斯角度进行论述,所以不适用构造损失函数的形式,而是使用最大概率估计。

我们假设存在 ϵ ∼ N ( 0 , σ 0 2 ) \epsilon \sim N(0,\sigma_0^2)ϵN(0,σ02)

由于我们的 y = w T x + ϵ y=w^Tx+\epsilony=wTx+ϵ,所以此时我们的y也符合高斯分布,即:

y ∼ N ( w T x , σ 0 2 ) y \sim N(w^Tx,\sigma_0^2)yN(wTx,σ02)

存在先验分布,即参数 w的分布,我们同样假设其分布符合高斯分布:

w ∼ N ( 0 , σ 1 2 ) w \sim N(0,\sigma_1^2)wN(0,σ12)

所以这样就会获得两者的概率密度公式:

P ( w ) = 1 2 π σ 1 e x p ( − w T w 2 σ 1 2 ) P(w)=\frac{1}{\sqrt{2\pi}\sigma_1}exp(-\frac{w^Tw}{2\sigma_1^2})P(w)=2πσ11exp(2σ12wTw)

P ( Y ∣ w ; X ) = 1 2 π σ 0 e x p ( − ( Y − w T X ) T ( Y − w T X ) 2 σ 0 2 ) P(Y|w;X)=\frac{1}{\sqrt{2\pi}\sigma_0}exp(-\frac{(Y-w^TX)^T(Y-w^TX)}{2\sigma_0^2})P(Yw;X)=2πσ01exp(2σ02(YwTX)T(YwTX))

为了获得最优解参数,使用最大后验概率估计,即:

P ( w ∣ Y ) = P ( w ) P ( Y ∣ w ) P ( Y ) P(w|Y)=\frac{P(w)P(Y|w)}{P(Y)}P(wY)=P(Y)P(w)P(Yw)

所以我们的目标就是获得:

a r g m a x w P ( w ∣ Y ) = a r g m a x w P ( w ) P ( Y ∣ w ) P ( Y ) = a r g m a x w P ( w ) P ( Y ∣ w ) = a r g m a x w l o g ( P ( w ) P ( Y ∣ w ) ) = a r g m a x w l o g 1 2 π σ 1 − w T w 2 σ 1 2 + l o g 1 2 π σ 0 − ( Y − w T X ) T ( Y − w T X ) 2 σ 0 2 = a r g m i n w w T w 2 σ 1 2 + ( Y − w T X ) 2 2 σ 0 2 = a r g m i n w ( Y − w T X ) 2 + σ 0 2 σ 1 2 w T w = a r g m i n w ∑ i = 1 m ( y i − w T x i ) + λ w T w argmax_wP(w|Y)\\=argmax_w\frac{P(w)P(Y|w)}{P(Y)}\\=argmax_wP(w)P(Y|w)\\=argmax_wlog(P(w)P(Y|w))\\=argmax_wlog\frac{1}{\sqrt{2\pi}\sigma_1}-\frac{w^Tw}{2\sigma_1^2}+log\frac{1}{\sqrt{2\pi}\sigma_0}-\frac{(Y-w^TX)^T(Y-w^TX)}{2\sigma_0^2}\\=argmin_w\frac{w^Tw}{2\sigma_1^2}+\frac{(Y-w^TX)^2}{2\sigma_0^2}\\=argmin_w(Y-w^TX)^2+\frac{\sigma_0^2}{\sigma_1^2}w^Tw\\=argmin_w\sum_{i=1}^m(y_i-w^Tx_i)+\lambda w^TwargmaxwP(wY)=argmaxwP(Y)P(w)P(Yw)=argmaxwP(w)P(Yw)=argmaxwlog(P(w)P(Yw))=argmaxwlog2πσ112σ12wTw+log2πσ012σ02(YwTX)T(YwTX)=argminw2σ12wTw+2σ02(YwTX)2=argminw(YwTX)2+σ12σ02wTw=argminwi=1m(yiwTxi)+λwTw

证毕,我们获得的结果与采用频率派即在损失函数后添加L2正则项一致。


目录
相关文章
|
1月前
|
机器学习/深度学习
如何用贝叶斯方法来解决机器学习中的分类问题?
【10月更文挑战第5天】如何用贝叶斯方法来解决机器学习中的分类问题?
|
20天前
|
机器学习/深度学习 数据采集 算法
探索机器学习中的线性回归
【10月更文挑战第25天】本文将深入浅出地介绍线性回归模型,一个在机器学习领域中广泛使用的预测工具。我们将从理论出发,逐步引入代码示例,展示如何利用Python和scikit-learn库实现一个简单的线性回归模型。文章不仅适合初学者理解线性回归的基础概念,同时也为有一定基础的读者提供实践指导。
|
1月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
探索机器学习:从线性回归到深度学习
在这篇文章中,我们将一起踏上一场激动人心的旅程,穿越机器学习的广阔天地。我们将从最基本的线性回归开始,逐步深入到复杂的深度学习模型。无论你是初学者还是有经验的开发者,这篇文章都将为你提供新的视角和深入的理解。让我们一起探索这个充满无限可能的世界吧!
|
1月前
|
机器学习/深度学习 API
机器学习入门(七):线性回归原理,损失函数和正规方程
机器学习入门(七):线性回归原理,损失函数和正规方程
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习:从线性回归到深度学习
【9月更文挑战第4天】在这篇文章中,我们将深入探讨机器学习的世界,从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将通过实际的代码示例,揭示这些模型背后的数学原理,以及如何在现实世界的问题中应用它们。无论你是初学者还是有经验的数据科学家,这篇文章都将为你提供新的视角和深入的理解。
|
3月前
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
611 0
|
3月前
|
机器学习/深度学习 算法
【机器学习】简单解释贝叶斯公式和朴素贝叶斯分类?(面试回答)
简要解释了贝叶斯公式及其在朴素贝叶斯分类算法中的应用,包括算法的基本原理和步骤。
76 1
|
3月前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】聚类算法中的距离度量有哪些及公式表示?
聚类算法中常用的距离度量方法及其数学表达式,包括欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、余弦相似度等多种距离和相似度计算方式。
285 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习的奥秘:从线性回归到深度学习
【8月更文挑战第26天】本文将带领读者走进机器学习的世界,从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将探讨各种算法的原理、应用场景以及实现方法,并通过代码示例加深理解。无论你是初学者还是有一定经验的开发者,这篇文章都将为你提供有价值的知识和技能。让我们一起揭开机器学习的神秘面纱,探索这个充满无限可能的领域吧!
|
3月前
|
机器学习/深度学习 人工智能 算法
探索机器学习:Python中的线性回归模型实现
【8月更文挑战第24天】在机器学习的世界中,线性回归是最基础也是应用最广泛的算法之一。本文将通过Python编程语言,使用scikit-learn库来实现一个简单的线性回归模型。我们将从理论出发,逐步深入到代码实现,最后通过一个实际数据集来验证模型的效果。无论你是机器学习的初学者,还是想要复习线性回归的基础知识,这篇文章都将为你提供有价值的信息。让我们一起踏上这段探索之旅吧!

热门文章

最新文章