开发者学堂课程【机器学习算法 :违背基本假设-1】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7204
违背基本假设-1
内容介绍
一、回顾回归模型的基本假设
二、常见不满足基本假设的情况
一、回顾回归模型的基本假设
线性回归有几个基本的前置假设条件:
零均值:随机误差项均值为0,保证未考虑的因素对被解释变量没有系统性的影响。随机误差是0,就是有时为正,有时为负,是分布在直线的两侧。
同方差:随机误差项方差相同,在给定 x 的情况下,ε 的条件方差为某个常数 σ2
无自相关:两个 c 之间不相关,.就是这两个的相关系数为0.
正态分布:ε符合正态分布~N(0,σ²)
解释变量是非随机变量,其观测值是常数
解释变量之间不存在精确的线性关系,样本个数要多于解释变量的个数。
前四个都是模型数据中获得的,剩下就是从模型之外的、预测不到的东西所满足的前置条件。事实上,假设条件比较严格,在一些做现实问题的大多数时候,会发现并不是所有的基本假设都会满足,就需要对不满足基本假设的进行处理。
二、常见不满足基本假设的情况
异方差、自相关、异常值从这三个方向来看出现的问题、预测产生的影响、还有一些常见的方法去消除对模型的影响
1. 异方差
回归模型中的异方差( Heteroscedasticity )是指随机误差项的方差不是一个常数,而是随着变量的取值变化而变化。在做线性回归的时候就要求时同方差。
由于不满足回归分析中的同方差( Homoscedasticity )的前提假设,异方差将可能带来以下问题:
对使用最小二乘法(OLS)求解参数时)参数估计值虽然无偏,但是不是最小方差线性无偏估计
参数的显著性检验失效
回归方程的应用效果不理想,如果回归方程不满足前提条件,实际上在估算参数时就会有问题。就是估出的参数不是最佳参数,通过之前检验常规模型的时候,失效检验不成功。只要一提方差,这一步就都有问题。怎个参数估计、校验有问题,对应用也有影响。
造成异方差的常见原因:
(1)模型缺少了某些解释变量,缺省变量本身的方差被包含在了随机误差的方差中
就是说这个模型就要是来通过分析影响的方差生成,也就是说整个的模型可以通过方差来代表,就是这些因素的变化能够表现出来就还算好的。如果一个模型由十个原因造成,但在回归模型时只选择了八个,漏选了两个因素的方差较大,那么这个模型不好。这个模型其中有一部分没有体现出来,在方差中没有提取出来有用的因素,就造成了随机变换隐藏了两个关键因素的方差,所以就不是真正的误差。
以下面为例,,对于第一个式子来说缺少的影响,它的随机误差就等于的总体随机误差。就是说含有对最终结果有一定规律的项没有提出来。从图上可以看到有非常明显的拟合。
(2)模型本身的选取有误,比如原本时非线性的,结果使用了线性模型
如下图中左侧的图,可以数据集时绿色框中的,相似度是比较高的,看到红框的时候,拟合是存在问题的。右图是随机误差的图,就有非常明显的规律,遇到这种情况要考虑所作模型的因变量和自变量之间是否可以用线性回归来表示
(3)其他原因,包括但不限于
样本量过少
测量误差
异常数据
时序分析或使用面版数据等
异方差的检验:
残差图分析:
坐标选择:纵坐标为残差 e,横坐标视情况而定,可选择:x、y 或者观测时间或序号
判断:散点随机散布、无规律则表明满足基本假设,有明显规律或者呈现一定趋势,则有异方差性
图一是0附件,小幅度,无规律波动
图二是表明变量之前并非线性关系
图三是表明因变量的方差值并不相同
图四是蛛网现象,表明因变量自相关
等级相关系数法:又称斯皮尔曼(Spearman)检验
第一步,做y关于x的普通最小二乘回归,求出的估计值;
第二步,取的绝对值||,把和||按升序或降序排列,分成等级(序号),和||分别有一个(序号),其差记为;计算出等级相关系数rs;
第三步,做等级相关系数rs;的显著性检验,n>8时,进行t检验。构造t统计量:
如果|t|≤ta/2(n-2),可以认为异方差不存在;反之,可以认为与||之间存在系统关系,存在异方差问题。
其他常见的检验方法:
相关图分析:X-Y 散点图,看是否存在明显的扩大、缩小、复杂趋势等
Park 检验与 Gleiser 检验:选择关于x的不同函数形式,对方程进行估计并进行显著性检验,如果存在某一种函数形式使得方程显著成立,则说明原模型存在异方差性。
Goldfeld-Quandt 检验:以引起异方差的解释变量的大小为顺序,去除中间若干值,生成两个子样本集,对两个样本集j进行回归,计算残差和,构造统计量。样本量要大,对于e,要求满足出同方差外的其他假定,只适用于递增型异方差。
Breusch-Pagan 检验:构造残差 p 平方序列与解释变量之间的辅助函数,得到回归平方和和 ESS,从而判断异方差性存在的显著性。要已知随机误差产生的原因且要求随机误差服从正态分布。
White 检验:与 BP 检验接近,但是无需任何方差的先验知识,是一种更一般的检查方法,无需做任何假定,不需排序,目前应用比较普遍
2.自相关
3.异常值