开发者学堂课程【机器学习算法 :违背基本假设-2】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7205
违背基本假设-2
内容介绍
一、 异方差检验:制图分析
二、 消除异方差
一、 异方差检验:制图分析
数据x、y,使用一元线性回归模型拟合:y-11.266+3.992*x,判断是否存在异方差。这是一个常见的问题,比如给一个数据,直接用一元线性回归拟合,把它当作一个结论得到结果,这还是有风险的。之前说过用线性回归模型去完成,有一些一系列的前置条件要满足的但不知道是否满足。这里讲的方差就要判断是否存在异方差。由散点图看出,还是有 x 随 y 的变化有明显的趋势。在从残差分析图中也可以看到一定的趋势,这就认为可能存在异方差的问题。
接下来做一个等级相关系数法:
第一步,做y关于x的普通最小二乘回归,求出的估计值;
第二步,求等级差,把,按升序排列,x和||分别有一先求出再计算,求等级相关系数 rs 其中样本个数n=20
第三步,做 rs 的显著性检验,n>8时,进行 t 检验。计算 t 统计量:
原假设为,拒绝原假设,即存在异方差问题
二、 消除异方差
消除异方差:加权最小二乘法
消除异方差办法有多种,常见的有加权最小二乘法、BOX-COX 变换法、方差稳定性变换法等以一元线性回归最小二乘法估计参数为例,其离差平方和公式:下图中可见。
存在的问题:每个观测值(即每个样本)的权重相同(都为1),同方差时,每个观测值在离差平方和中的地位是一样的,但是当异方差时,方差大的观测值,对平方和的影响也大,OLE 求得的回归线,会被拉向方差大的样本点,导致方差小的样本拟合效果差。
此时考虑调整权重,以平衡各个观察值的作用,即为加权最小二乘法,其离差平方和公式变为:公式如下:
尝试不同的 m 值,得到不同的权重,取结果最好的一组。权重值估算公式为:
以 m=2 为例,得到权重值 ω=1/xi2,即(0.08650519,0.30864198.0.04725898,0.02872738)
计算加权均值ω=1.638, ω=18.234
计算回归参数: 公式如图
等级相关系数法或残差分析图法去评估有没有改进。