开发者学堂课程【机器学习算法 :违背基本假设6】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7209
违背基本假设6
内容介绍:
一、常见不满足基本假设的情况
一、 常见不满足基本假设的情况
1. 异方差
2. 自相关
3. 异常值
回归分析中,一些异常或者极端的观测值可能会引起较大的残差,影响回归拟合的结果。
异常值成因 |
消除方法 |
数据录入错误 |
重新核实数据 |
数据测量错误 |
重新测量数据 |
数据随机误差 |
删除、或者重新观测数据 |
缺少重要自变量 |
增加相应自变量 |
缺少观测数据 |
增加观测数据 |
存在异方差 |
消除异方差,如加权回归等 |
模型选择错误 |
更改模型,如改成非线性回归 |
异常值的常见情况:
因变量 y 出现异常值:一般认为残差超过 即为异常值。
标注化残差:
删除残差:
学生化残差:,其中 为杠杆值,为帽子矩阵 的主对角线元素
删除学生化残差:,P 为自变量个数,的观测值被认为是异常值
自变量 X 出现异常值
为杠杆值,表示自变量第i次观测值与自变量平均值之间的距离,杠杆值 大的样本点为强影响电。刚感知的平均值 ,当 大于2倍或3倍的平均值 时,被认为是大的
库克距离:反应了 与残差的综合效应,当 不是异常值,当 是异常值