开发者学堂课程【机器学习算法 :残差分析】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7195
残差分析
内容简介
一、残差
二、残差图
三、残差的性质
四、残差改进
一、残差
以一元线性回归为例,回归拟合值就是建立一个模型之后,对使用模型对x对应的y值进行的一个预测,这个预测值就是回归拟合值。真实值和这个回归拟合值的差就是残差(Residual)。
残差的公式: 残差平方和:,把残差的公式代入得到后面的结果。
几个常见的“差”概念:
误差:真实值与模型输出值的差,。正常来讲误差是不可测量的,公式中,的真正的值是未知的,是要拿到所有的数据才能算出来。,不知道就只能用估计值就是残差。另外误差的范围比较广泛,常见的误差一般来自于测量,有系统误差,还有测量方法没有选对,还有一些观测值因为读数造成的误差。这里说的是从全局角度来看的误差。它只能减小不能消除。
残差:真实值与模型拟合值(估计值)的差,即为误差的估计值:
离差:真实值与模拟拟合值的期望(平均值)的差,离差平方和为:。上一章讲F检验的时候讲过。
偏差:事实上的真实值(不可知)与估计值的差:,所看到的值都是观测值
方差:模型估计值与模型估计值得期望(平均值)的方差:
二、残差图
以自变量 x 为横轴,残差为纵轴,制作残差图,辅助对数据质量进行分析。如果一个模型满足所给出的基本假定,残差应该在0附近随机变化,且变化幅度不大,反之,则表明回归模型不满足基本假设。
1. 在0附近,小浮动的无规律波动。大部分情况下,会满足数据的基本假设;还有一小部分像上节课中的四组数据一样
2. 表面变量之前并非线性关系,可以看到模型预测的结果和真实值,这个真实值就是观测值就是样本里的取值,这之间的变化是一个曲线的,这个规律性很强,通常就不是一个线性的关系,没有通过模型表现出来,建议使用非线性模型来检查回归。
3. 表面因变量的方差值不相同。可以看到随着x的变化,残差越来越大,就不是等方差的。即残差的方差和x的取值有关
4. 蛛网现象,表明因变量自相关。可能还要做一些别的处理。
5. Anscombe Quartet 的残差图。上面是原来做的一个把所有样本数据拟合在一起的图,下面是在这节课中做的残差图。第一个可以看到下面的残差图基本上是在0上下浮动,这对第一个数据模型来说是很有用的。第二个可以看到是一个很有个规律的虚线,就证明在这个数据集中 x、y 不单单是一个线性关系,所有不能用一元线性回归建模。就是说残差中如果还有未提取的东西,就需要重新建模。这就建议使用非线性的数据模型。第三个可以看到有一个异常值,实际上不考虑异常值的话,把整个做一个调整是可以看到残差基本上为0,算拟合的比较好。第四个实际上并不符合线性回归模型,可以看到残杀是十分诡异的。就是这四个数据集除了均值、方差、拟合优度、残差分析,就可以看到这个模型并不是一样的。
三、残差的性质
残差的期望:
残差的约束条件
残差的方差
,其中称为杠杆值,取值(0,1)
越接近杠杆值越接近0,残差就越大
越远离杠杆值越接近1,残差就越小
四、残差改进
残差改进方法:
标准化残差
标准化使残差可比
可用其判断异常值,
无法处理方差不等的问题
学生化残差
解决了方差不等的问题
可根据判断异常值