【机器学习】线性回归——岭回归从贝叶斯角度理解(理论+图解+公式推导)

简介: 【机器学习】线性回归——岭回归从贝叶斯角度理解(理论+图解+公式推导)

2021人工智能领域新星创作者,带你从入门到精通,该博客每天更新,逐渐完善机器学习各个知识体系的文章,帮助大家更高效学习。


概述

之前讲的一篇文章使用的是频率派的角度进行论述使用L2正则化,就是在我们损失函数的后面添加L2正则项,我们说过学术界存在两个流派,分别是频率派和贝叶斯派,它们两个的主要区别就是求解问题的方式不同,一般频率派假设我们的参数都是未知变量,而贝叶斯假设我们的参数是已知的,就是参数已经符合一个分布,但是符合什么分布不清楚,这个就是我们后边要用到的先验概率。

最大后验概率估计

由于本篇文章要从贝叶斯角度进行论述,所以不适用构造损失函数的形式,而是使用最大概率估计。

我们假设存在 ϵ ∼ N ( 0 , σ 0 2 ) \epsilon \sim N(0,\sigma_0^2)ϵN(0,σ02)

由于我们的 y = w T x + ϵ y=w^Tx+\epsilony=wTx+ϵ,所以此时我们的y也符合高斯分布,即:

y ∼ N ( w T x , σ 0 2 ) y \sim N(w^Tx,\sigma_0^2)yN(wTx,σ02)

存在先验分布,即参数 w的分布,我们同样假设其分布符合高斯分布:

w ∼ N ( 0 , σ 1 2 ) w \sim N(0,\sigma_1^2)wN(0,σ12)

所以这样就会获得两者的概率密度公式:

P ( w ) = 1 2 π σ 1 e x p ( − w T w 2 σ 1 2 ) P(w)=\frac{1}{\sqrt{2\pi}\sigma_1}exp(-\frac{w^Tw}{2\sigma_1^2})P(w)=2πσ11exp(2σ12wTw)

P ( Y ∣ w ; X ) = 1 2 π σ 0 e x p ( − ( Y − w T X ) T ( Y − w T X ) 2 σ 0 2 ) P(Y|w;X)=\frac{1}{\sqrt{2\pi}\sigma_0}exp(-\frac{(Y-w^TX)^T(Y-w^TX)}{2\sigma_0^2})P(Yw;X)=2πσ01exp(2σ02(YwTX)T(YwTX))

为了获得最优解参数,使用最大后验概率估计,即:

P ( w ∣ Y ) = P ( w ) P ( Y ∣ w ) P ( Y ) P(w|Y)=\frac{P(w)P(Y|w)}{P(Y)}P(wY)=P(Y)P(w)P(Yw)

所以我们的目标就是获得:

a r g m a x w P ( w ∣ Y ) = a r g m a x w P ( w ) P ( Y ∣ w ) P ( Y ) = a r g m a x w P ( w ) P ( Y ∣ w ) = a r g m a x w l o g ( P ( w ) P ( Y ∣ w ) ) = a r g m a x w l o g 1 2 π σ 1 − w T w 2 σ 1 2 + l o g 1 2 π σ 0 − ( Y − w T X ) T ( Y − w T X ) 2 σ 0 2 = a r g m i n w w T w 2 σ 1 2 + ( Y − w T X ) 2 2 σ 0 2 = a r g m i n w ( Y − w T X ) 2 + σ 0 2 σ 1 2 w T w = a r g m i n w ∑ i = 1 m ( y i − w T x i ) + λ w T w argmax_wP(w|Y)\\=argmax_w\frac{P(w)P(Y|w)}{P(Y)}\\=argmax_wP(w)P(Y|w)\\=argmax_wlog(P(w)P(Y|w))\\=argmax_wlog\frac{1}{\sqrt{2\pi}\sigma_1}-\frac{w^Tw}{2\sigma_1^2}+log\frac{1}{\sqrt{2\pi}\sigma_0}-\frac{(Y-w^TX)^T(Y-w^TX)}{2\sigma_0^2}\\=argmin_w\frac{w^Tw}{2\sigma_1^2}+\frac{(Y-w^TX)^2}{2\sigma_0^2}\\=argmin_w(Y-w^TX)^2+\frac{\sigma_0^2}{\sigma_1^2}w^Tw\\=argmin_w\sum_{i=1}^m(y_i-w^Tx_i)+\lambda w^TwargmaxwP(wY)=argmaxwP(Y)P(w)P(Yw)=argmaxwP(w)P(Yw)=argmaxwlog(P(w)P(Yw))=argmaxwlog2πσ112σ12wTw+log2πσ012σ02(YwTX)T(YwTX)=argminw2σ12wTw+2σ02(YwTX)2=argminw(YwTX)2+σ12σ02wTw=argminwi=1m(yiwTxi)+λwTw

证毕,我们获得的结果与采用频率派即在损失函数后添加L2正则项一致。


目录
相关文章
|
2月前
|
机器学习/深度学习
如何用贝叶斯方法来解决机器学习中的分类问题?
【10月更文挑战第5天】如何用贝叶斯方法来解决机器学习中的分类问题?
|
4月前
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
871 0
|
4月前
|
机器学习/深度学习 算法
【机器学习】简单解释贝叶斯公式和朴素贝叶斯分类?(面试回答)
简要解释了贝叶斯公式及其在朴素贝叶斯分类算法中的应用,包括算法的基本原理和步骤。
83 1
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】聚类算法中的距离度量有哪些及公式表示?
聚类算法中常用的距离度量方法及其数学表达式,包括欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、余弦相似度等多种距离和相似度计算方式。
428 1
|
4月前
|
机器学习/深度学习
如何用贝叶斯方法来解决机器学习中的分类问题?
如何用贝叶斯方法来解决机器学习中的分类问题?
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】贝叶斯算法在机器学习中的应用与实例分析
【机器学习】贝叶斯算法在机器学习中的应用与实例分析
577 1
|
6月前
|
机器学习/深度学习 算法
机器学习中的超参数优化涉及手动尝试、网格搜索、随机搜索、贝叶斯优化、梯度优化、进化算法等策略
【6月更文挑战第28天】**机器学习中的超参数优化涉及手动尝试、网格搜索、随机搜索、贝叶斯优化、梯度优化、进化算法等策略。工具如scikit-optimize、Optuna助力优化,迁移学习和元学习提供起点,集成方法则通过多模型融合提升性能。资源与时间考虑至关重要,交叉验证和提前停止能有效防止过拟合。**
84 0
|
7月前
|
机器学习/深度学习 人工智能 数据挖掘
【机器学习】贝叶斯统计中,“先验概率”和“后验概率”的区别?
【5月更文挑战第11天】【机器学习】贝叶斯统计中,“先验概率”和“后验概率”的区别?
|
7月前
|
机器学习/深度学习
【机器学习】贝叶斯统计中,“似然”和“后验概率”有什么区别?
【5月更文挑战第11天】【机器学习】贝叶斯统计中,“似然”和“后验概率”有什么区别?
|
7月前
|
机器学习/深度学习 存储 算法
【机器学习】使用贝叶斯模型做分类时,可能会碰到什么问题?怎么解决?
【5月更文挑战第11天】【机器学习】使用贝叶斯模型做分类时,可能会碰到什么问题?怎么解决?

热门文章

最新文章