最小二乘法的优势在于它有封闭形式的解,可以通过对误差关于参数的偏导数为零的条件来求解最优参数。对于线性回归问题,最小二乘法的解析解是可以直接计算得到的。
最小二乘法(Least Squares Method)是一种常用于拟合数学模型和估计模型参数的方法,其中均方误差(Mean Squared Error,MSE)是一个重要的概念。
总体而言,最小二乘法是一种常用的参数估计方法,特别适用于线性模型。它在统计学、机器学习和工程领域中得到广泛应用。
根据对数,单调性,对上面公式求自然底数e的对数,效果不变~
接下来 log 函数继续为你带来惊喜,数学上连乘是个大麻烦,即使交给计算机去求解它也得哭出声来。惊喜是:
- loga(XY)=logaX+logaY
- logaXY=logaX−logaY
- logaXn=n∗logaX
- loga(X1X2……Xn)=logaX1+logaX2+……+logaXn
- logxxn=n(n∈R)
- loga1X=−logaX
- logax√Ny=yxlogaN
$log_e(P_W) = loge(\prod\limits{i = 0}^{n}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i - W^Tx_i)^2}{2\sigma^2}})$
=n∑i=0loge(1√2πσe−(yi−WTxi)22σ2)累乘问题变成累加问题~
乘风破浪,继续推导--->
=n∑i=0(loge1√2πσ−(yi−WTxi)22σ2)
=n∑i=0(loge1√2πσ−1σ2⋅12(yi−WTxi)2)
上面公式是最大似然求对数后的变形,其中π、σ都是常量,而(yi−WTxi)2肯定大于零!上面求最大值问题,即可转变为如下求最小值问题:
L(W)=12n∑i=0(y(i)−WTx(i))2 L代表Loss,表示损失函数,损失函数越小,那么上面最大似然就越大~
有的书本上公式,也可以这样写,用J(θ)表示一个意思,θ 的角色就是W:
进一步提取:
其中:
ˆy=hθ(X)=Xθ 表示全部数据,是矩阵,X表示多个数据,进行矩阵乘法时,放在前面
$\hat{y}i = h{\theta}(x^{(i)}) = \theta^Tx^{(i)}$ 表示第i个数据,是向量,所以进行乘法时,其中一方需要转置
因为最大似然公式中有个负号,所以最大总似然变成了最小化负号后面的部分。 到这里,我们就已经推导出来了 MSE 损失函数J(θ),从公式我们也可以看出来 MSE 名字的来 历,mean squared error,上式也叫做最小二乘法!