线性回归模型-误差分析

简介: 线性回归模型-误差分析

误差分析作用


我们在做机器学习模型的时候,训练完模型后,往往需要对模型进行性能评估,进行选择,数值预测模型的评估,有以下的常用评估指标:


  • 均方误差:是最常见的指标,但是容易受到奇异值的影响
  • 平均绝对误差
  • 方均根差
  • R平方系数
  • 借助图形分析工具

其实这些线性回归的评估指标万变不离其宗都离不开二个核心的数值,偏差与方差,说白就是在评估模型的时候,如果评估指标效果理想,就要想办法降低偏差与方差的数值。


偏差与方差


这里重点解释一下偏差与方差

泛化误差可以分解成偏差的平方加上方差加上噪声。

偏差:度量了学习算法的期望预测和真实结果的偏离程度,刻画了学习算法本身的拟合能力。

方差:度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响,噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下界,刻画了问题本身的难度。

偏差和方差一般称为bias和variance,一般训练程度越强,偏差越小,方差越大,泛化误差一般在中间有一个最小值,如果偏差较大,方差较小,此时一般称为欠拟合,而偏差较小,方差较大称为过拟合。


图形定义

4e462c90883a481b9d62bbffa0f5f653.png


这是一张常见的靶心图。可以想象红色靶心表示为实际值,蓝色点集为预测值。在模型不断地训练迭代过程中,我们能碰到四种情况:


低偏差,低方差:这是训练的理想模型,此时蓝色点集基本落在靶心范围内,且数据离散程度小,基本在靶心范围内;

低偏差,高方差:这是深度学习面临的最大问题,过拟合了。也就是模型太贴合训练数据了,导致其泛化(或通用)能力差,若遇到测试集,则准确度下降的厉害;

高偏差,低方差:这往往是训练的初始阶段;

高偏差,高方差:这是训练最糟糕的情况,准确度差,数据的离散程度也差。


数学上是如何推导出的呢


通常我们在选择偏差与方差作为评估指标的时候,其实就是把模型的误差看成是

1687246200305.png

fa2b293d0d2d452c9627f3ce0f0be8a9.png


出现偏差与方差误差,分别该如何处理呢


低偏差,高方差:

增加训练样本数量,样本多了,噪声比中就减少了

减少特征维数,高维空间密度小

加入正则化项,使得模型更加平滑


高偏差,低方差


  1. 寻找更好的特征,提升对数据的刻画能力
  2. 增加特征数量
  3. 重新选择更加复杂的模型


备注:通过好的模型验证方法,比如通过交叉验证法(可以解决了variance不同训练集学得的函数的差异,bias不同函数的平均值)的问题。

能更准确反映模型的误差,更精确的做误差分析

具体方法有:


  • Holdout检验
  • 交叉验证
  • 自助法

评估指标数值多少合适?


我相信很多做机器学习算法模型的同学,都会疑惑我做好的模型,选择好了评估指标,最终得到的数值,我怎么去衡量这个数值对于模型性能来说是好是坏。


对于像均方误差、平均绝对误差、方均根差这样的评估指标是不能够告诉你,这个模型性能是否好坏的,它们的作用之一,是用来做比较的。也就是说,在优化模型或者更改一下模型参数后,用这些指标,对模型前后的指标数值进行对比。


在线性回归模型中起到决定性评估模型好坏的指标是R平方

具体可以参考这篇文章

决定系数R方是否越大越好?

相关文章
|
2月前
|
机器学习/深度学习 算法
贝叶斯线性回归:概率与预测建模的融合
本文探讨了贝叶斯方法在线性回归中的应用,从不确定性角度出发,介绍了如何通过概率来表达变量间关系的不确定性。文章首先回顾了古希腊天文学家使用本轮系统模拟行星运动的历史,并将其与傅里叶级数分解方法类比,强调了近似的重要性。接着,通过高斯分布和贝叶斯推断,详细讲解了线性回归中的不确定性处理方法。文章使用Howell1数据集,展示了如何构建和拟合高斯模型,并通过先验预测模拟验证模型合理性。最后,介绍了多项式回归和样条方法,展示了如何逐步增加模型复杂性以捕捉更细微的数据模式。贝叶斯方法不仅提供了点估计,还提供了完整的后验分布,使得模型更具解释性和鲁棒性。
46 1
贝叶斯线性回归:概率与预测建模的融合
时间序列分析实战(二):时序的ARMA模型拟合与预测
时间序列分析实战(二):时序的ARMA模型拟合与预测
|
6月前
|
机器学习/深度学习 算法 Python
线性回归训练和预测代码详解
线性回归作为一种基础的回归分析方法,其核心思想和实现相对简单。本文通过详细的代码示例,介绍了线性回归模型的训练过程和预测函数的实现。希望能够帮助读者更好地理解和掌握这一基础算法。在实际应用中,线性回归可以作为一种初步的分析工具,为更复杂的模型提供参考和基础。
89 2
时间序列分析实战(六):ARIMA乘法(疏系数)模型建模及预测
时间序列分析实战(六):ARIMA乘法(疏系数)模型建模及预测
|
7月前
|
数据可视化 数据挖掘 计算机视觉
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资
|
7月前
|
Serverless
R语言用于线性回归的稳健方差估计
R语言用于线性回归的稳健方差估计
|
7月前
ARIMA、ARIMAX、 动态回归和OLS 回归预测多元时间序列
ARIMA、ARIMAX、 动态回归和OLS 回归预测多元时间序列
ARIMA、ARIMAX、 动态回归和OLS 回归预测多元时间序列
|
7月前
|
机器学习/深度学习 数据可视化 算法
R语言拟合改进的稀疏广义加性模型(RGAM)预测、交叉验证、可视化
R语言拟合改进的稀疏广义加性模型(RGAM)预测、交叉验证、可视化
|
7月前
R语言对回归模型进行协方差分析
R语言对回归模型进行协方差分析
|
7月前
|
机器学习/深度学习 算法 数据可视化
R语言逻辑回归和泊松回归模型对发生交通事故概率建模
R语言逻辑回归和泊松回归模型对发生交通事故概率建模
下一篇
DataWorks