2021人工智能领域新星创作者,带你从入门到精通,该博客每天更新,逐渐完善机器学习各个知识体系的文章,帮助大家更高效学习。
概述
之前讲的一篇文章使用的是频率派的角度进行论述使用L2正则化,就是在我们损失函数的后面添加L2正则项,我们说过学术界存在两个流派,分别是频率派和贝叶斯派,它们两个的主要区别就是求解问题的方式不同,一般频率派假设我们的参数都是未知变量,而贝叶斯假设我们的参数是已知的,就是参数已经符合一个分布,但是符合什么分布不清楚,这个就是我们后边要用到的先验概率。
最大后验概率估计
由于本篇文章要从贝叶斯角度进行论述,所以不适用构造损失函数的形式,而是使用最大概率估计。
我们假设存在 ϵ ∼ N ( 0 , σ 0 2 ) \epsilon \sim N(0,\sigma_0^2)ϵ∼N(0,σ02)
由于我们的 y = w T x + ϵ y=w^Tx+\epsilony=wTx+ϵ,所以此时我们的y也符合高斯分布,即:
y ∼ N ( w T x , σ 0 2 ) y \sim N(w^Tx,\sigma_0^2)y∼N(wTx,σ02)
存在先验分布,即参数 w的分布,我们同样假设其分布符合高斯分布:
w ∼ N ( 0 , σ 1 2 ) w \sim N(0,\sigma_1^2)w∼N(0,σ12)
所以这样就会获得两者的概率密度公式:
P ( w ) = 1 2 π σ 1 e x p ( − w T w 2 σ 1 2 ) P(w)=\frac{1}{\sqrt{2\pi}\sigma_1}exp(-\frac{w^Tw}{2\sigma_1^2})P(w)=2πσ11exp(−2σ12wTw)
P ( Y ∣ w ; X ) = 1 2 π σ 0 e x p ( − ( Y − w T X ) T ( Y − w T X ) 2 σ 0 2 ) P(Y|w;X)=\frac{1}{\sqrt{2\pi}\sigma_0}exp(-\frac{(Y-w^TX)^T(Y-w^TX)}{2\sigma_0^2})P(Y∣w;X)=2πσ01exp(−2σ02(Y−wTX)T(Y−wTX))
为了获得最优解参数,使用最大后验概率估计,即:
P ( w ∣ Y ) = P ( w ) P ( Y ∣ w ) P ( Y ) P(w|Y)=\frac{P(w)P(Y|w)}{P(Y)}P(w∣Y)=P(Y)P(w)P(Y∣w)
所以我们的目标就是获得:
a r g m a x w P ( w ∣ Y ) = a r g m a x w P ( w ) P ( Y ∣ w ) P ( Y ) = a r g m a x w P ( w ) P ( Y ∣ w ) = a r g m a x w l o g ( P ( w ) P ( Y ∣ w ) ) = a r g m a x w l o g 1 2 π σ 1 − w T w 2 σ 1 2 + l o g 1 2 π σ 0 − ( Y − w T X ) T ( Y − w T X ) 2 σ 0 2 = a r g m i n w w T w 2 σ 1 2 + ( Y − w T X ) 2 2 σ 0 2 = a r g m i n w ( Y − w T X ) 2 + σ 0 2 σ 1 2 w T w = a r g m i n w ∑ i = 1 m ( y i − w T x i ) + λ w T w argmax_wP(w|Y)\\=argmax_w\frac{P(w)P(Y|w)}{P(Y)}\\=argmax_wP(w)P(Y|w)\\=argmax_wlog(P(w)P(Y|w))\\=argmax_wlog\frac{1}{\sqrt{2\pi}\sigma_1}-\frac{w^Tw}{2\sigma_1^2}+log\frac{1}{\sqrt{2\pi}\sigma_0}-\frac{(Y-w^TX)^T(Y-w^TX)}{2\sigma_0^2}\\=argmin_w\frac{w^Tw}{2\sigma_1^2}+\frac{(Y-w^TX)^2}{2\sigma_0^2}\\=argmin_w(Y-w^TX)^2+\frac{\sigma_0^2}{\sigma_1^2}w^Tw\\=argmin_w\sum_{i=1}^m(y_i-w^Tx_i)+\lambda w^TwargmaxwP(w∣Y)=argmaxwP(Y)P(w)P(Y∣w)=argmaxwP(w)P(Y∣w)=argmaxwlog(P(w)P(Y∣w))=argmaxwlog2πσ11−2σ12wTw+log2πσ01−2σ02(Y−wTX)T(Y−wTX)=argminw2σ12wTw+2σ02(Y−wTX)2=argminw(Y−wTX)2+σ12σ02wTw=argminwi=1∑m(yi−wTxi)+λwTw
证毕,我们获得的结果与采用频率派即在损失函数后添加L2正则项一致。