线性回归之最小二乘法-阿里云开发者社区

线性回归之最小二乘法

2017-03-03 1281

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 线性回归线性回归是很常见的一种回归，线性回归可以用来预测或者分类，主要解决线性问题。最小二乘法线性回归过程主要解决的就是如何通过样本来获取最佳的拟合线。

线性回归

线性回归是很常见的一种回归，线性回归可以用来预测或者分类，主要解决线性问题。

最小二乘法

线性回归过程主要解决的就是如何通过样本来获取最佳的拟合线。最常用的方法便是最小二乘法，它是一种数学优化技术，它通过最小化误差的平方和寻找数据的最佳函数匹配。

代数推导：

假设拟合直线为 $y=ax+b$
对任意样本点 $(x_i,y_i)$
误差为 $e=y_i-(ax_i+b)$
当 $S=\sum_{i=1}^{n}{e_i}^2$ 为最小时拟合度最高，即 $\sum_{i=1}^{n}{(y_i-ax_i-b)}^2$ 最小。
分别求一阶偏导
$\partial S \partial b = - 2 (\sum i = 1 n y i - n b - a \sum i = 1 n x i)$ $\frac{\partial S}{\partial b}=-2(\sum_{i=1}^{n}{y_i}-nb-a\sum_{i=1}^{n}{x_i})$

\partial S \partial a = - 2 (\sum i = 1 n x i y i - b \sum i = 1 n x i - a \sum i = 1 n x i 2)

$\frac{\partial S}{\partial a}=-2(\sum_{i=1}^{n}{x_iy_i}-b\sum_{i=1}^{n}{x_i}-a\sum_{i=1}^{n}{x_i}^2)$

6.分别让上面两式等于0，并且有 $n\bar x=\sum_{i=1}^{n}x_i$ ， $n\bar y=\sum_{i=1}^{n}y_i$

7.得到最终解

a = \sum n i = 1 ( x i - x ¯ ) ( y i - y ¯ ) \sum n i = 1 ( x i - x ¯ ) 2

$a=\frac {\sum_{i=1}^{n}({x_i-\bar x})(y_i-\bar y)} {\sum_{i=1}^{n}({x_i-\bar x})^2}$

b = y ¯ - a x ¯

$b=\bar y-a\bar x$

结果也可以如下

a = n \sum x i y i - \sum x i \sum y i n \sum x i 2 - ( \sum x i ) 2

$a=\frac {n\sum_{}^{}{x_iy_i}-\sum_{}^{}{x_i}\sum_{}^{}{y_i}} {n\sum_{}^{}{x_i}^2-(\sum_{}^{}{x_i})^2}$

b = \sum x i 2 \sum y i - \sum x i \sum x i y i n \sum x i 2 - ( \sum x i ) 2

$b=\frac {\sum_{}^{}{x_i}^2\sum_{}^{}{y_i}-\sum_{}^{}{x_i}\sum_{}^{}{x_iy_i}} {n\sum_{}^{}{x_i}^2-(\sum_{}^{}{x_i})^2}$

代码实现

import numpy as np
import matplotlib.pyplot as plt

def calcAB(x,y):
    n = len(x)
    sumX,sumY,sumXY,sumXX =0,0,0,0
    for i in range(0,n):
        sumX  += x[i]
        sumY  += y[i]
        sumXX += x[i]*x[i]
        sumXY += x[i]*y[i]
    a = (n*sumXY -sumX*sumY)/(n*sumXX -sumX*sumX)
    b = (sumXX*sumY - sumX*sumXY)/(n*sumXX-sumX*sumX)
    return a,b,

xi = [1,2,3,4,5,6,7,8,9,10]
yi = [10,11.5,12,13,14.5,15.5,16.8,17.3,18,18.7]
a,b=calcAB(xi,yi)
print("y = %10.5fx + %10.5f" %(a,b))
x = np.linspace(0,10)
y = a * x + b
plt.plot(x,y)
plt.scatter(xi,yi)
plt.show()

运行结果

这里写图片描述

矩阵推导

对于 $y=ax+b$ 转为向量形式
$W = [w 0 w 1] $ ‘ ， ‘ $ X = [1 x 1]$ $W=\begin{bmatrix} w_0\\ w_1 \end{bmatrix}$`，`$X=\begin{bmatrix} 1\\ x_1 \end{bmatrix}$
于是 $y=w_1x_1+w_0=W^TX$
损失函数为
$L = 1 n \sum i = 1 n (y n - (W T X) 2) = 1 n (y - X W) T (y - X W)$ $L=\frac{1}{n}\sum_{i=1}^{n}(y_n-(W^TX)^2)=\frac{1}{n}(y-XW)^T(y-XW)$
最后可化为

1 n X T W T X W - 2 n X T W T y + 1 n y T y

$\frac{1}{n}X^TW^TXW-\frac{2}{n}X^TW^Ty+\frac{1}{n}y^Ty$

令偏导为0

\partial L \partial W = 2 n X T X W - 2 n X T y = 0

$\frac{\partial L}{\partial W}=\frac{2}{n}X^TXW-\frac{2}{n}X^Ty=0$
另外，

(XTX)−1XTX=E $(X^TX)^{-1}X^TX=E$ ，

EW=W $EW=W$
则，

(X T X) - 1 X T X W = (X T X) - 1 X T y

$(X^TX)^{-1}X^TXW=(X^TX)^{-1}X^Ty$

W = (X T X) - 1 X T y

$W=(X^TX)^{-1}X^Ty$

代码实现

import numpy as np
import matplotlib.pyplot as plt

x = [1,2,3,4,5,6,7,8,9,10]
y = [10,11.5,12,13,14.5,15.5,16.8,17.3,18,18.7]

A = np.vstack([x,np.ones(len(x))]).T

a,b = np.linalg.lstsq(A,y)[0]
print("y = %10.5fx + %10.5f" %(a,b))
x = np.array(x)
y = np.array(y)

plt.plot(x,y,'o',label='data',markersize=10)
plt.plot(x,a*x+b,'r',label='line')
plt.show()

运行结果
这里写图片描述

========广告时间========

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了，有需要的朋友可以到 https://item.jd.com/12185360.html 进行预定。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

=========================

线性回归之最小二乘法

线性回归

最小二乘法

代数推导：

代码实现

运行结果

矩阵推导

代码实现

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

线性回归之最小二乘法

线性回归

最小二乘法

代数推导：

代码实现

运行结果

矩阵推导

代码实现

热门文章

最新文章

相关电子书