开发者学堂课程【机器学习算法 :违背基本假设-3】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7206
违背基本假设-3
内容简介
一、 自相关
二、 自相关常见成因
三、 自相关的检验
一、 自相关
上一章详细介绍了违背基本假设的情况异方差怎样造成的、如何识别、如何减少影响。这一节介绍自相关。
回归模型中的自相关( Heteroscedasticity )是指随机误差项的协方差 cov(en,)*0.即变量前后数值之间存在相关关系。协方差就是有两个变量,a 变大的时候b变大,或者是 b 变小,变量存在变化就是由相关性时协方差不等于0;协方差等于0时,无论哪一个怎么变,都不对另一个产生影响。自相关就是变量的前面和后面有关,后面会讲到一阶自相关、二阶自相关,一阶就是后边的值之和前面的一项值相关关系,二阶就是和前面两个值有相关关系。
由于不满足回归分析中的不相关的前提假设,自相关将可能带来以下问题:
对使用最小二乘法(OLS)求解参数时,参数估计值虽然无偏,但是 OLS 估计量的方差不是最小的,(之前讲的偏差时与真实值是否一致,举例就是射中的值与预测的值命中就是无偏,没中就是有偏。方差是基本每一个值都在附近,波动范围比较小。最佳状态就是方差比较小)估计量不是最优线性无偏估计量(BLUE:Best Linear Unbiased Estimator 在所有线性、无偏的估计量中,有最小方差的估值)
OLS 估计量的方差是有偏的。用来计算方差和 OLS 估计量标准误的公式会严重低估真实的方差和标准误,从而导致t统计量的值变大,使某个系数显著不为0,实际上相反
显著性检验失效,包括t检验和F检验
存在序列相关时,最小二乘估计量对抽样波动非常敏感
回归方程的应用效果不理想,会带来较大的方差甚至错误
二、自相关常见成因
造成异方差的常见原因:
模型遗漏关键变量,被遗漏变量在时间顺序上存在相关性。例如xn在建模的时候会有时间性,它的值就会放在随机误差中。对于随机误差讲就提现了 xn 的特点,就导致随机误差项自相关。
错误的回归函数形式
蛛网现象( CobwebPhenomenon ):来源于微观经济学,原意是表示某种商品的供给量因受前一期价格影响而表现出来的某种规律性,呈蛛网状收敛或发散与供需的均衡点。一般是指一个变量
对另一个变量的反应是不同步的,迟滞一定时间:
对数据加工整理而导致误差项之间出现自相关,比如处理序列数据时采用了不恰当的差分变换
三、自相关的检验
图示检验法:
绘制 er,er-1 的散点图,如果大部分点落在第二、四象限,则表明随机扰动项目存在负相关,如果大部分落在第一、三象限,则表明存在正相关
按时间顺序绘制回归残差项 et 的图形,如果随着t的变化,有规律的呈现锯齿形或循环性状的变化,表明存在序列相关
自相关系数法:
根据 (真正计算时取其估计值 e)计算自相关系数,其取值范围为[-1,1],接近1时表示误差序列存在正相关,接近-1时表示存在负相关
公式如下:
象限是在坐标轴中,从 x、y 的正半轴为第一象限,逆时针依次是第二、三、四象限。画一条过原点的直线,斜率为正,就是经过一三象限,用这种方式来判断。还有一个是在绘制一个回归参数在时间中变化图像,若t循环性的变化,那么就是相关的,另一个就是时间上的图看上去直观,若自相关明显,肉眼就可以看出来;不明显判断就是有一定的困难。就是可以用相关系数法来进行判断
DW(Durbin-Watson)检验法:适用于小样本,只能检验随机扰动项具有一阶自回归形式的序列相关问题
随机扰动项的一阶自回归形式为:,若,则前一个值与后一个相等。
构造原假设为:H0:
构造 DW 统计量:公式如下图中所示
直 DW 表,得到 DL,DU
再之后可以根据这两个值按下表内容进行一个判断是否存在自相关性。
实际上由这几个值把空间分为了几个区域,0~DL 是正相关,4-DL~4 是负相关,中间的 DU~4-DU 是无自相关的。
DW 检验法的缺点:
存在两个不能确定的区域,一旦取值在该区域内,无法判断,需要借助其他方法
只能用于随机扰动项的一阶序列相关的情形,对于高阶不适用,限制了适用范围
上下界要求 n>15,否则样本数过小,无法利用残差对自相关性的存在做出合理诊断