1. 线性回归
线性回归:使用形如y = w T x + b
x+b的线性模型拟合数据输入和输出之间的映射关系。
基于均方误差最小化(LSM,Latest Square Method)求解:在线性回归中,试图找到一条直线(一个超平面),使所有样本到直线上(超平面上)欧氏距离(Euclidean distance)之和最小(均方误差对应欧式距离)。
线性回归可使用最小二乘法与梯度下降法解决:
最小二乘法:通过计算导数为零的点直接得到最低点,需要计算特征矩阵的逆(时间复杂度O (n 3 ) ,当特征数过大时(n > 10000 ),计算速度会很慢.
梯度下降法:从任意一点开始,逐步找到最低点,适用于特征数大于10000时。
1.1 最小二乘法(Normal Equation)
1.1.1 代数法求解
考虑m 个样本,每个样本只有1个属性,
线性回归试图学习一个线性模型:
使得下式最小:
J( w 1 ,w 0)是关于 w 1 和w 0 的凸函数,分别对 w 1 和w 0求导:
令其导数等于0,求得
1.1.2 矩阵法求解
考虑m 个样本,每个样本有n 个属性,
其中,
线性回归试图学习一个线性模型:
使得下式最小:
对W 求导,得
令上式等于0,得
传统的基于最小二乘的线性回归法缺乏稳定性:对于矩阵X ,若某些列线性相关性较大(即训练样本中某些属性线性相关),就会导致X T X的值接近0,在计算( X T X ) − 1时就会出现不稳定性。
1.2 梯度下降法
梯度下降是一个求函数最小值的算法,可以用来最小化任何代价函数j
对于h ( x ) = w 1 x +w 0 ,在三维空间中存在一个使损失函数J ( w 1 ,w 0 ) 最小的点,其中,
沿梯度下降方向,寻找下一个能让代价函数值下降最多的参数组合,一致迭代直到到达局部最小值(local minimum)。
其中,
α是学习率(learning rate),决定了代价函数下降程度最大的方向向下迈出的步子有多大,每一次迭代都同时让所有参数减去学习速率乘以代价函数的导数。
如果α太小,需要很多步才能到达全局最低点。
如果α 太大,那么梯度下降法可能会越过最低点,导致无法收敛,甚至发散。
当接近局部最低点时,梯度下降法会自动采取更小的幅度,因为当接近局部最低点时,导数值会自动变得越来越小,所以梯度下降将自动采取较小的幅度,没有必要再另外减小α 梯度下降无法确定得到局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。
对于
定义损失函数
迭代下式至收敛
其中,
2 多项式回归
多项式回归(Polynomial Regression)是研究一个因变量与一个或多个自变量间多项式的回归分析方法。
自变量只有一个时,称为一元多项式回归;自变量有多个时,称为多元多项式回归。
一元m 次多项式回归方程为:
二元二次多项式回归方程为
多项式回归的最大优点就是可以通过增加x的高次项对实测点进行逼近(因为任一函数都可以分段用多项式来逼近),直至满意为止。