Machine Learning-L5-回归分析

简介: Machine Learning-L5-回归分析

1. 线性回归


线性回归:使用形如y = w T x + b

x+b的线性模型拟合数据输入和输出之间的映射关系。


基于均方误差最小化(LSM,Latest Square Method)求解:在线性回归中,试图找到一条直线(一个超平面),使所有样本到直线上(超平面上)欧氏距离(Euclidean distance)之和最小(均方误差对应欧式距离)。


线性回归可使用最小二乘法与梯度下降法解决:


最小二乘法:通过计算导数为零的点直接得到最低点,需要计算特征矩阵的逆(时间复杂度O (n 3  ) ,当特征数过大时(n > 10000 ),计算速度会很慢.

梯度下降法:从任意一点开始,逐步找到最低点,适用于特征数大于10000时。


1.1 最小二乘法(Normal Equation)


1.1.1 代数法求解


考虑m 个样本,每个样本只有1个属性,

image.png

线性回归试图学习一个线性模型:

image.png

使得下式最小:


image.png

J( w 1 ,w 0)是关于 w 1 和w 0 的凸函数,分别对 w 1 和w 0求导:


image.png


令其导数等于0,求得


image.png


1.1.2 矩阵法求解


考虑m 个样本,每个样本有n 个属性,


image.png

其中,

image.png


线性回归试图学习一个线性模型:

image.png

使得下式最小:


image.png


对W 求导,得

image.png

令上式等于0,得


image.png

传统的基于最小二乘的线性回归法缺乏稳定性:对于矩阵X ,若某些列线性相关性较大(即训练样本中某些属性线性相关),就会导致X T X的值接近0,在计算( X T X ) − 1时就会出现不稳定性。


1.2 梯度下降法


梯度下降是一个求函数最小值的算法,可以用来最小化任何代价函数j



20200330231510430.png



对于h ( x ) = w 1 x +w 0  ,在三维空间中存在一个使损失函数J ( w 1 ,w 0  ) 最小的点,其中,

image.png


沿梯度下降方向,寻找下一个能让代价函数值下降最多的参数组合,一致迭代直到到达局部最小值(local minimum)。

image.png


其中,


image.png


α是学习率(learning rate),决定了代价函数下降程度最大的方向向下迈出的步子有多大,每一次迭代都同时让所有参数减去学习速率乘以代价函数的导数。


如果α太小,需要很多步才能到达全局最低点。

如果α 太大,那么梯度下降法可能会越过最低点,导致无法收敛,甚至发散。

当接近局部最低点时,梯度下降法会自动采取更小的幅度,因为当接近局部最低点时,导数值会自动变得越来越小,所以梯度下降将自动采取较小的幅度,没有必要再另外减小α 梯度下降无法确定得到局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。


对于


image.png

定义损失函数

image.png

迭代下式至收敛


image.png


其中,

image.png

2 多项式回归


多项式回归(Polynomial Regression)是研究一个因变量与一个或多个自变量间多项式的回归分析方法。

自变量只有一个时,称为一元多项式回归;自变量有多个时,称为多元多项式回归。


一元m 次多项式回归方程为:


image.png


二元二次多项式回归方程为


image.png

多项式回归的最大优点就是可以通过增加x的高次项对实测点进行逼近(因为任一函数都可以分段用多项式来逼近),直至满意为止。

相关文章
|
算法 IDE 关系型数据库
Machine Learning-L13-频繁模式挖掘
Machine Learning-L13-频繁模式挖掘
Machine Learning-L13-频繁模式挖掘
|
机器学习/深度学习 算法 vr&ar
Machine Learning-L19-条件随机场
Machine Learning-L19-条件随机场
Machine Learning-L19-条件随机场
|
机器学习/深度学习 算法
Machine Learning-L8-SVM:支持向量机全面解析
Machine Learning-L8-SVM:支持向量机全面解析
Machine Learning-L8-SVM:支持向量机全面解析
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(11)--聚类
聚类是一种经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。
159 0
周志华《Machine Learning》学习笔记(11)--聚类
|
机器学习/深度学习 算法
周志华《Machine Learning》学习笔记(4)--线性模型
笔记的前一部分主要是对机器学习预备知识的概括。
152 0
周志华《Machine Learning》学习笔记(4)--线性模型
|
机器学习/深度学习 自然语言处理 算法
Machine Learning-L20-降维
Machine Learning-L20-降维
Machine Learning-L20-降维
|
机器学习/深度学习 算法 Python
Machine Learning-L6-逻辑回归
Machine Learning-L6-逻辑回归
Machine Learning-L6-逻辑回归
|
人工智能 算法 关系型数据库
Machine Learning-L17-贝叶斯网络
Machine Learning-L17-贝叶斯网络
Machine Learning-L17-贝叶斯网络
|
存储 编解码 算法
Machine Learning-L14-聚类(下)
Machine Learning-L14-聚类(下)
Machine Learning-L14-聚类(下)
|
机器学习/深度学习 存储 算法