残差分析| 学习笔记

简介: 快速学习残差分析。

开发者学堂课程【机器学习算法 :残差分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7195


残差分析

 

内容简介

一、残差

二、残差图

三、残差的性质

四、残差改进

 

一、残差

以一元线性回归为例,回归拟合值就是建立一个模型之后,对使用模型对x对应的y值进行的一个预测,这个预测值就是回归拟合值。真实值和这个回归拟合值的差就是残差(Residual)。

残差的公式:image.png 残差平方和:image.png,把残差的公式代入得到后面的结果。

几个常见的“差”概念:

误差:真实值与模型输出值的差,image.png。正常来讲误差是不可测量的,公式中image.pngimage.png的真正的值是未知的,是要拿到所有的数据才能算出来。image.pngimage.png不知道就只能用估计值就是残差。另外误差的范围比较广泛,常见的误差一般来自于测量,有系统误差,还有测量方法没有选对,还有一些观测值因为读数造成的误差。这里说的是从全局角度来看的误差。它只能减小不能消除。

残差:真实值与模型拟合值(估计值)的差,即为误差的估计值:image.png

离差:真实值与模拟拟合值的期望(平均值)的差,离差平方和为:image.png。上一章讲F检验的时候讲过。

偏差:事实上的真实值(不可知)与估计值的差:image.png,所看到的值都是观测值

方差:模型估计值与模型估计值得期望(平均值)的方差:image.png

 

二、残差图

以自变量 x 为横轴,残差为纵轴,制作残差图,辅助对数据质量进行分析。如果一个模型满足所给出的基本假定,残差应该在0附近随机变化,且变化幅度不大,反之,则表明回归模型不满足基本假设。

1. 在0附近,小浮动的无规律波动。大部分情况下,会满足数据的基本假设;还有一小部分像上节课中的四组数据一样

2. 表面变量之前并非线性关系,可以看到模型预测的结果和真实值,这个真实值就是观测值就是样本里的取值,这之间的变化是一个曲线的,这个规律性很强,通常就不是一个线性的关系,没有通过模型表现出来,建议使用非线性模型来检查回归。

3. 表面因变量的方差值不相同。可以看到随着x的变化,残差越来越大,就不是等方差的。即残差的方差和x的取值有关

4. 蛛网现象,表明因变量自相关。可能还要做一些别的处理。

image.png

5. Anscombe Quartet 的残差图。上面是原来做的一个把所有样本数据拟合在一起的图,下面是在这节课中做的残差图。第一个可以看到下面的残差图基本上是在0上下浮动,这对第一个数据模型来说是很有用的。第二个可以看到是一个很有个规律的虚线,就证明在这个数据集中 x、y 不单单是一个线性关系,所有不能用一元线性回归建模。就是说残差中如果还有未提取的东西,就需要重新建模。这就建议使用非线性的数据模型。第三个可以看到有一个异常值,实际上不考虑异常值的话,把整个做一个调整是可以看到残差基本上为0,算拟合的比较好。第四个实际上并不符合线性回归模型,可以看到残杀是十分诡异的。就是这四个数据集除了均值、方差、拟合优度、残差分析,就可以看到这个模型并不是一样的。

image.png

三、残差的性质

残差的期望:

image.png

残差的约束条件

image.png

残差的方差

image.png,其中image.png称为杠杆值,取值(0,1)

image.png越接近image.png杠杆值image.png越接近0,残差就越大

image.png越远离image.png杠杆值image.png越接近1,残差就越小

image.png

 

四、残差改进

残差改进方法:

标准化残差 image.png

标准化使残差可比

可用其判断异常值,image.png

无法处理方差不等的问题

学生化残差  image.png

解决了方差不等的问题

可根据image.png判断异常值

image.png

相关文章
|
14天前
|
机器学习/深度学习 算法 数据可视化
机器学习的核心功能:分类、回归、聚类与降维
机器学习领域的基本功能类型通常按照学习模式、预测目标和算法适用性来分类。这些类型包括监督学习、无监督学习、半监督学习和强化学习。
19 0
|
3月前
|
机器学习/深度学习 资源调度 算法
R语言逻辑回归与分类模型的深度探索与应用
【8月更文挑战第31天】逻辑回归作为一种经典的分类算法,在R语言中通过`glm()`函数可以轻松实现。其简单、高效且易于解释的特点,使得它在处理二分类问题时具有广泛的应用价值。然而,值得注意的是,逻辑回归在处理非线性关系或复杂交互作用时可能表现不佳,此时可能需要考虑其他更复杂的分类模型。
|
6月前
|
机器学习/深度学习
R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析
R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析
|
6月前
|
机器学习/深度学习 数据可视化 算法
R语言拟合改进的稀疏广义加性模型(RGAM)预测、交叉验证、可视化
R语言拟合改进的稀疏广义加性模型(RGAM)预测、交叉验证、可视化
|
6月前
|
机器学习/深度学习
R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
|
6月前
|
存储 算法 前端开发
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
|
6月前
|
机器学习/深度学习 数据挖掘 Python
机器学习-特征选择:如何使用互信息特征选择挑选出最佳特征?
机器学习-特征选择:如何使用互信息特征选择挑选出最佳特征?
630 1
|
机器学习/深度学习 算法 索引
逻辑回归与多项式特征:解密分类问题的强大工具
逻辑回归与多项式特征:解密分类问题的强大工具
|
机器学习/深度学习 数据采集 算法
机器学习-特征选择:如何使用Lassco回归精确选择最佳特征?
本文旨在介绍Lasso回归在精确特征选择中的应用。首先,我们将探讨特征选择的重要性,包括如何提高模型性能和降低计算成本。接着,我们将深入解析Lasso回归的原理和算法,并说明其在特征选择中的优势。为了支撑我们的观点,我们将引用相关文献提供的实证结果和案例分析。
2187 1
|
机器学习/深度学习
时序预测 | MATLAB实现基于CNN-BiLSTM卷积双向长短期记忆神经网络的时间序列预测-递归预测未来(多指标评价)
时序预测 | MATLAB实现基于CNN-BiLSTM卷积双向长短期记忆神经网络的时间序列预测-递归预测未来(多指标评价)