最小二乘法的优势在于它有封闭形式的解,可以通过对误差关于参数的偏导数为零的条件来求解最优参数。对于线性回归问题,最小二乘法的解析解是可以直接计算得到的。
最小二乘法(Least Squares Method)是一种常用于拟合数学模型和估计模型参数的方法,其中均方误差(Mean Squared Error,MSE)是一个重要的概念。
总体而言,最小二乘法是一种常用的参数估计方法,特别适用于线性模型。它在统计学、机器学习和工程领域中得到广泛应用。
根据对数,单调性,对上面公式求自然底数e的对数,效果不变~
接下来 log 函数继续为你带来惊喜,数学上连乘是个大麻烦,即使交给计算机去求解它也得哭出声来。惊喜是:
- $log_a(XY) = log_aX + log_aY$
- $log_a\frac{X}{Y} = log_aX - log_aY$
- $log_aX^n = n*log_aX$
- $log_a(X_1X_2……X_n) = log_aX_1 + log_aX_2 + …… + log_aX_n$
- $log_xx^n = n(n\in R)$
- $log_a\frac{1}{X} = -log_aX$
- $log_a\sqrt[x]{N^y} = \frac{y}{x}log_aN$
$log_e(P_W) = loge(\prod\limits{i = 0}^{n}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i - W^Tx_i)^2}{2\sigma^2}})$
$=\sum\limits_{i = 0}^{n}log_e(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i - W^Tx_i)^2}{2\sigma^2}})$累乘问题变成累加问题~
乘风破浪,继续推导--->
$=\sum\limits_{i = 0}^{n}(log_e\frac{1}{\sqrt{2\pi}\sigma} - \frac{(y_i - W^Tx_i)^2}{2\sigma^2})$
$=\sum\limits_{i = 0}^{n}(log_e\frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{\sigma^2}\cdot\frac{1}{2}(y_i - W^Tx_i)^2)$
上面公式是最大似然求对数后的变形,其中$\pi、\sigma$都是常量,而$(y_i - W^Tx_i)^2$肯定大于零!上面求最大值问题,即可转变为如下求最小值问题:
$L(W) = \frac{1}{2}\sum\limits_{i = 0}^n(y^{(i)} - W^Tx^{(i)})^2$ L代表Loss,表示损失函数,损失函数越小,那么上面最大似然就越大~
有的书本上公式,也可以这样写,用$J(\theta)$表示一个意思,$\theta$ 的角色就是W:
进一步提取:
其中:
$\hat{y} = h_{\theta}(X) =X \theta$ 表示全部数据,是矩阵,X表示多个数据,进行矩阵乘法时,放在前面
$\hat{y}i = h{\theta}(x^{(i)}) = \theta^Tx^{(i)}$ 表示第i个数据,是向量,所以进行乘法时,其中一方需要转置
因为最大似然公式中有个负号,所以最大总似然变成了最小化负号后面的部分。 到这里,我们就已经推导出来了 MSE 损失函数$J(\theta)$,从公式我们也可以看出来 MSE 名字的来 历,mean squared error,上式也叫做最小二乘法!