2021人工智能领域新星创作者,带你从入门到精通,该博客每天更新,逐渐完善机器学习各个知识体系的文章,帮助大家更高效学习。
概述
对于之前的文章我们使用了最小二乘估计然后获得了损失函数:
L ( w ) = ∑ i = 1 m ( w T x i − y i ) 2 L(w)=\sum_{i=1}^m(w^Tx_i-y_i)^2L(w)=i=1∑m(wTxi−yi)2
然后求解极值点,然后获得
w ∗ = ( X T X ) − 1 X T Y w^*=(X^TX)^{-1}X^TYw∗=(XTX)−1XTY
对于之前获得的结论都是基于最小二乘估计(LSE)得来的,本节从一种概率角度获得我们的最优解w
高斯噪声
如果我们的模型完全拟合了我们的数据,那么此时误差就为0,但是在现实中,我们的线性模型是很难完全拟合所有数据的,肯定是会存在一定的误差,这个误差我们采用噪声的方式进行表达,也就是我们此时满足:
y = f ( w ) + ϵ = w T x + ϵ y=f(w)+\epsilon\\=w^Tx+\epsilony=f(w)+ϵ=wTx+ϵ
其中我们假设噪声服从高斯分布,即:
ϵ ∼ N ( 0 , σ 2 ) \epsilon\sim N(0,\sigma^2)ϵ∼N(0,σ2)
由方差和期望公式可知,我们的y同样服从高斯分布,即:
y ∼ N ( w T x , σ 2 ) y \sim N(w^Tx,\sigma^2)y∼N(wTx,σ2)
也就是:
P ( y ∣ w ; x i ) = 1 2 π σ e x p ( − ( y − w T x ) 2 2 σ 2 ) P(y|w;x_i)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-w^Tx)^2}{2\sigma^2})P(y∣w;xi)=2πσ1exp(−2σ2(y−wTx)2)
此时我们采用概率进行构造损失函数,采用对数似然估计,使我们的Y服从该分布的概率最大:
即:
L ( w ) = l o g P ( Y ∣ w ; X ) = l o g ∏ i = 1 m P ( y i ∣ w ; x i ) = ∑ i = 1 m l o g P ( y i ∣ w ; x i ) = ∑ i = 1 m l o g 1 2 π σ e x p ( − ( y − w T x ) 2 2 σ 2 ) = ∑ i = 1 m [ l o g 1 2 π σ − 1 2 σ 2 ( y i − w T x i ) 2 ] L(w)=logP(Y|w;X)\\=log\prod_{i=1}^mP(y_i|w;x_i)\\=\sum_{i=1}^mlogP(y_i|w;x_i)\\=\sum_{i=1}^mlog\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-w^Tx)^2}{2\sigma^2})\\=\sum_{i=1}^m[log\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}(y_i-w^Tx_i)^2]L(w)=logP(Y∣w;X)=logi=1∏mP(yi∣w;xi)=i=1∑mlogP(yi∣w;xi)=i=1∑mlog2πσ1exp(−2σ2(y−wTx)2)=i=1∑m[log2πσ1−2σ21(yi−wTxi)2]
上面的 P ( Y ∣ w ; X ) P(Y|w;X)P(Y∣w;X) 可以拆分成 ∏ i = 1 m P ( y i ∣ w ; x i ) \prod_{i=1}^mP(y_i|w;x_i)∏i=1mP(yi∣w;xi) 是因为假设我们的样本之间是独立同分布的,每个样本之间相互独立,互不影响。
然后我们的目的是极大似然函数,所以有:
w ∗ = a r g m a x w L ( w ) = a r g m a x w ∑ i = 1 m [ l o g 1 2 π σ − 1 2 σ 2 ( y i − w T x i ) 2 ] = a r g m i n w ∑ i = 1 m ( y i − w T x ) 2 w^*=argmax_wL(w)\\=argmax_w\sum_{i=1}^m[log\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}(y_i-w^Tx_i)^2]\\=argmin_w\sum_{i=1}^m(y_i-w^Tx)^2w∗=argmaxwL(w)=argmaxwi=1∑m[log2πσ1−2σ21(yi−wTxi)2]=argminwi=1∑m(yi−wTx)2
可以看到最终的化简结果和我们使用最小二乘估计得到的结果一致,所以我们可以得出结论:
L S E < = > M L E ( ϵ ∼ N ( 0 , σ 2 ) ) LSE<=>MLE(\epsilon \sim N(0,\sigma^2))LSE<=>MLE(ϵ∼N(0,σ2))
就是我们的最小二乘估计和概率极大似然估计是等价的,前提满足的条件就是噪声满足高斯分布。