残差分析| 学习笔记

简介: 快速学习残差分析。

开发者学堂课程【机器学习算法 :残差分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7195


残差分析

 

内容简介

一、残差

二、残差图

三、残差的性质

四、残差改进

 

一、残差

以一元线性回归为例,回归拟合值就是建立一个模型之后,对使用模型对x对应的y值进行的一个预测,这个预测值就是回归拟合值。真实值和这个回归拟合值的差就是残差(Residual)。

残差的公式:image.png 残差平方和:image.png,把残差的公式代入得到后面的结果。

几个常见的“差”概念:

误差:真实值与模型输出值的差,image.png。正常来讲误差是不可测量的,公式中image.pngimage.png的真正的值是未知的,是要拿到所有的数据才能算出来。image.pngimage.png不知道就只能用估计值就是残差。另外误差的范围比较广泛,常见的误差一般来自于测量,有系统误差,还有测量方法没有选对,还有一些观测值因为读数造成的误差。这里说的是从全局角度来看的误差。它只能减小不能消除。

残差:真实值与模型拟合值(估计值)的差,即为误差的估计值:image.png

离差:真实值与模拟拟合值的期望(平均值)的差,离差平方和为:image.png。上一章讲F检验的时候讲过。

偏差:事实上的真实值(不可知)与估计值的差:image.png,所看到的值都是观测值

方差:模型估计值与模型估计值得期望(平均值)的方差:image.png

 

二、残差图

以自变量 x 为横轴,残差为纵轴,制作残差图,辅助对数据质量进行分析。如果一个模型满足所给出的基本假定,残差应该在0附近随机变化,且变化幅度不大,反之,则表明回归模型不满足基本假设。

1. 在0附近,小浮动的无规律波动。大部分情况下,会满足数据的基本假设;还有一小部分像上节课中的四组数据一样

2. 表面变量之前并非线性关系,可以看到模型预测的结果和真实值,这个真实值就是观测值就是样本里的取值,这之间的变化是一个曲线的,这个规律性很强,通常就不是一个线性的关系,没有通过模型表现出来,建议使用非线性模型来检查回归。

3. 表面因变量的方差值不相同。可以看到随着x的变化,残差越来越大,就不是等方差的。即残差的方差和x的取值有关

4. 蛛网现象,表明因变量自相关。可能还要做一些别的处理。

image.png

5. Anscombe Quartet 的残差图。上面是原来做的一个把所有样本数据拟合在一起的图,下面是在这节课中做的残差图。第一个可以看到下面的残差图基本上是在0上下浮动,这对第一个数据模型来说是很有用的。第二个可以看到是一个很有个规律的虚线,就证明在这个数据集中 x、y 不单单是一个线性关系,所有不能用一元线性回归建模。就是说残差中如果还有未提取的东西,就需要重新建模。这就建议使用非线性的数据模型。第三个可以看到有一个异常值,实际上不考虑异常值的话,把整个做一个调整是可以看到残差基本上为0,算拟合的比较好。第四个实际上并不符合线性回归模型,可以看到残杀是十分诡异的。就是这四个数据集除了均值、方差、拟合优度、残差分析,就可以看到这个模型并不是一样的。

image.png

三、残差的性质

残差的期望:

image.png

残差的约束条件

image.png

残差的方差

image.png,其中image.png称为杠杆值,取值(0,1)

image.png越接近image.png杠杆值image.png越接近0,残差就越大

image.png越远离image.png杠杆值image.png越接近1,残差就越小

image.png

 

四、残差改进

残差改进方法:

标准化残差 image.png

标准化使残差可比

可用其判断异常值,image.png

无法处理方差不等的问题

学生化残差  image.png

解决了方差不等的问题

可根据image.png判断异常值

image.png

相关文章
|
机器学习/深度学习 PyTorch 算法框架/工具
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
|
5月前
|
机器学习/深度学习 算法
神经网络中激活函数的重要性
【8月更文挑战第23天】
78 0
|
8月前
|
机器学习/深度学习 算法 数据建模
SPSS多层感知器 (MLP)神经网络预测全国污染物综合利用量数据
SPSS多层感知器 (MLP)神经网络预测全国污染物综合利用量数据
|
8月前
|
存储 算法 前端开发
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
|
机器学习/深度学习
时序预测 | MATLAB实现基于CNN-BiLSTM卷积双向长短期记忆神经网络的时间序列预测-递归预测未来(多指标评价)
时序预测 | MATLAB实现基于CNN-BiLSTM卷积双向长短期记忆神经网络的时间序列预测-递归预测未来(多指标评价)
|
机器学习/深度学习
时序预测 | MATLAB实现基于CNN-LSTM卷积长短期记忆神经网络的时间序列预测-递归预测未来(多指标评价)
时序预测 | MATLAB实现基于CNN-LSTM卷积长短期记忆神经网络的时间序列预测-递归预测未来(多指标评价)
|
机器学习/深度学习 搜索推荐 数据挖掘
【Pytorch神经网络理论篇】 25 基于谱域图神经网络GNN:基础知识+GNN功能+矩阵基础+图卷积神经网络+拉普拉斯矩阵
图神经网络(Graph Neural Network,GNN)是一类能够从图结构数据中学习特征规律的神经网络,是解决图结构数据(非欧氏空间数据)机器学习问题的最重要的技术之一。
1023 0
|
机器学习/深度学习 PyTorch 算法框架/工具
【Pytorch神经网络实战案例】19 神经网络实现估计互信息的功能
定义两组具有不同分布的模拟数据,使用神经网络的MINE的方法计算两个数据分布之间的互信息
400 0
|
机器学习/深度学习 算法
图神经网络学习笔记-03图神经网络算法(上)
图神经网络学习笔记-03图神经网络算法(上)
194 0
图神经网络学习笔记-03图神经网络算法(上)
|
机器学习/深度学习 算法
图神经网络学习笔记-04图神经网络算法(下)
图神经网络学习笔记-04图神经网络算法(下)
144 0
图神经网络学习笔记-04图神经网络算法(下)