基本思想
求出这样一些未知参数使得样本点和拟合线的总误差(距离)最小
最直观的感受如下图(图引用自知乎某作者)
而这个误差(距离)可以直接相减,但是直接相减会有正有负,相互抵消了,所以就用差的平方
推导过程
1 写出拟合方程
y=a+bx
2 现有样本
(x1,y1),(x2,y2)...(xn,yn)
3 设
di
为样本点到拟合线的距离,即误差
di=yi−(a+bxi)
4 设
D
为差方和(为什么要取平方前面已说,防止正负相互抵消)
D=∑i=1nd2i=∑i=1n(yi−a−bxi)
5 根据一阶导数等于0,二阶大于等于0(证明略)求出未知参数
对a求一阶偏导
∂D∂a=∑i=1n2(yi−a−bxi)(−1) =−2∑i=1n(yi−a−bxi)
=−2(∑i=1nyi−∑i=1na−b∑i=1nxi) =−2(ny¯−na−nbx¯)
对b求一阶偏导
∂D∂b=∑i=1n2(yi−a−bxi)(−xi) =−2∑i=1n(xiyi−axi−bx2i)
=−2(∑i=1nxiyi−a∑i=1nxi−b∑i=1nx2i) =−2(∑i=1nxiyi−nax¯−b∑i=1nx2i)
令偏导等于0得
−2(ny¯−na−nbx¯)=0
=>a=y¯−bx¯
−2(∑i=1nxiyi−nax¯−b∑i=1nx2i)=0
并将
a=y¯−bx¯
带入化简得
=>∑i=1nxiyi−nx¯y¯+nbx¯2−b∑i=1nx2i=0
=>∑i=1nxiyi−nx¯y¯=b(∑i=1nx2i−nx¯2)
=>b=∑i=1nxiyi−nx¯y¯∑i=1nx2i−nx¯2
因为
∑i=1n(xi−x¯)(yi−y¯)=∑i−1n(xiyi−x¯yi−xiy¯+x¯y¯)=∑i=1nxiyi−nx¯y¯−nx¯y¯
+nx¯y¯
∑i=1n(xi−x¯)2=∑i−1n(x2i−2x¯xi+x¯2)=∑i=1nx2i−2nx¯2+nx¯2=∑i=1nx2i−nx¯2
所以将其带入上式得
b=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2