【机器学习】线性回归——岭回归解决过拟合问题(理论+图解+公式推导)

简介: 【机器学习】线性回归——岭回归解决过拟合问题(理论+图解+公式推导)

2021人工智能领域新星创作者,带你从入门到精通,该博客每天更新,逐渐完善机器学习各个知识体系的文章,帮助大家更高效学习。


概述

之前为了找到拟合直线,我们使用了最小二乘估计得到了:

L ( w ) = ∑ i = 1 m ( w T x i − y i ) 2 = W T X T X W − 2 W T X T Y + Y T Y L(w)=\sum_{i=1}^m(w^Tx_i-y_i)^2\\=W^TX^TXW-2W^TX^TY+Y^TYL(w)=i=1m(wTxiyi)2=WTXTXW2WTXTY+YTY

然后我们获得的最优解为:

w ∗ = ( X T X ) − 1 X T Y w^*=(X^TX)^{-1}X^TYw=(XTX)1XTY

这个式子我们可以观察一下,式子开头为 ( X T X ) − 1 (X^TX)^{-1}(XTX)1 ,存在逆矩阵形式,也就是说要满足上面的最优解,前提必须满足 X T X X^TXXTX 可逆,那么就要求它的行列式不为0,但是由上式我们尽可以判断其为半正定矩阵,有可能存在行列式为0的情况。

解释一下,矩阵半正定说明矩阵的特征值都是大于等于0的,而行列式的值等于所有特征值的乘积,所以由于是半正定,所以存在行列式为0的情况,此时上述的最优解就会无意义。

证明一下 X T X X^TXXTX 为什么是半正定的:

要证明半正定矩阵,需证明对于任意列向量A满足 A T X T X A ≥ 0 A^TX^TXA\geq0ATXTXA0

A T X T X A = ( A X ) T A X = ∣ ∣ A X ∣ ∣ 2 ≥ 0 A^TX^TXA=(AX)^TAX=||AX||^2\geq0ATXTXA=(AX)TAX=AX20

正则化框架

一般来说我们加入正则项都是为了解决过拟合的方式,这种方法措施很常见,所以有个固定的框架:

a r g m i n L ( w ) + λ P ( w ) argminL(w)+\lambda P(w)argminL(w)+λP(w)

其中的 L ( w ) L(w)L(w) 为我们的损失函数,后面的 λ \lambdaλ 为惩罚系数,即为正则化的程度,而 P ( w ) P(w)P(w) 就为我们的正则项,一般来说正则项可以理解为模型的复杂程度,就是使用一个表达式来表述我们模型的复杂程度,不过我们不需要考虑使用什么表示式衡量模型复杂程度,前人已经帮我们构建好,一般常用的就是L1正则化和L2正则化。

使用了L1正则项的线性回归常被称为Lasso回归 P ( w ) = ∣ ∣ w ∣ ∣ 1 P(w)=||w||_1P(w)=w1

使用了L2正则项的常被称为岭回归(Ridge)P ( w ) = ∣ ∣ w ∣ ∣ 2 2 = w T w P(w)=||w||_2^2=w^TwP(w)=w22=wTw

本篇侧重推导公式,这里就不解释为什么加入正则项可以防止过拟合了。

那么我们加入L2正则项后的函数就变成了:

J ( w ) = L ( w ) + λ w T w = W T X T X W − 2 W T X T Y + Y T Y + λ W T W J(w)=L(w)+\lambda w^Tw\\=W^TX^TXW-2W^TX^TY+Y^TY+\lambda W^TWJ(w)=L(w)+λwTw=WTXTXW2WTXTY+YTY+λWTW

所以我们的目标就变成了:

a r g m i n J ( w ) = a r g m i n W T X T X W − 2 W T X T Y + Y T Y + λ W T W argminJ(w)\\=argminW^TX^TXW-2W^TX^TY+Y^TY+\lambda W^TWargminJ(w)=argminWTXTXW2WTXTY+YTY+λWTW

对上式进行求导,可得:

W ∗ = ( X T X + λ I ) − 1 X T Y W^*=(X^TX+\lambda I)^{-1}X^TYW=(XTX+λI)1XTY

将我们没有加入正则项后的 W ∗ W^*W 进行对比:

w ∗ = ( X T X ) − 1 X T Y w^*=(X^TX)^{-1}X^TYw=(XTX)1XTY

加入之后仍存在逆矩阵,但是此时发现内部的矩阵变为了 X T X + λ I X^TX+\lambda IXTX+λI ,它是一个半正定的矩阵加上一个单位阵,显然是可逆的,这里解释下为什么?

上面我们讲过 X T X X^TXXTX 是半正定的,所以其特征值都是大于等于0的,但是此时加上了一个单位阵,由矩阵多项式可知,此时矩阵的特征值等于原来的特征值分别加上 λ \lambdaλ ,如果 λ = 0 \lambda=0λ=0 ,和原来是一样的,如果 λ > 0 \lambda>0λ>0 ,那么此时矩阵的特征值就全部都是大于0的,所以它的行列式不为0,即存在逆矩阵,那么上面的解有意义。


目录
相关文章
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】
机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】
|
3月前
|
机器学习/深度学习 算法
【机器学习】正则化 Regularization 过拟合欠拟合
【1月更文挑战第27天】【机器学习】正则化 Regularization 过拟合欠拟合
|
3月前
|
机器学习/深度学习 传感器 算法
【机器学习】多元线性回归基本概念
【1月更文挑战第23天】【机器学习】多元线性回归基本概念
|
8天前
|
机器学习/深度学习 人工智能 分布式计算
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析
13 0
|
2月前
|
机器学习/深度学习 人工智能 算法
利用Python实现简单的机器学习算法——线性回归
本文介绍了如何使用Python语言和相关库,通过实现线性回归算法来进行简单的机器学习模型训练和预测。通过详细的代码示例和解释,帮助读者了解机器学习中的基础概念和实践操作。
|
3月前
|
机器学习/深度学习 人工智能
【人工智能】<吴恩达-机器学习>多变量线性回归&学习率&特征值
【1月更文挑战第26天】【人工智能】<吴恩达-机器学习>多变量线性回归&学习率&特征值
|
3月前
|
机器学习/深度学习 人工智能
【人工智能】<吴恩达-机器学习>单变量的线性回归&认识梯度下降
【1月更文挑战第26天】【人工智能】<吴恩达-机器学习>单变量的线性回归&认识梯度下降
|
1月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
|
21天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
1月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
27 1

热门文章

最新文章