开发者学堂课程【机器学习算法 :多重共线性-2】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7214
多重共线性-2
一、 案例
基于历史数据构建国家财政收入回归模型,判断已有解释变量中是否存在多重共线性,存在请消除
已知的自变量有,农业、工业、建筑业、人口,因变量是财政收入。
直接观察法:计算各自变量之间的相关系数,强线性关系得变量较多,存在较强得线性相关
就是说 x1 和 x1 的相关系数是1,那 x1 和 x2 按照公式算一下相关系数,x1 和 x2 是0.9963,x1 和 x3 是0.9918.。从图中可以看到是对称的 x1x2 和 x2x1 的值是一样的。就可以看到这个里面多个变量间存在强相关关系,就可以认为这当中必然存在多重线性。
方差扩大因子法:计算((X*)TX*)-1其对角线即为还可以计算。对输入的变量进行标准化,它的转置进行计算,它的逆就是公式中的含义。代入公式计算和结果如下图
>>1,整体存在严重得多重共线性,根据可以判断j=1,2,3,4,5时,多重共线性严重。第一个大于10,第二个大于一百,第三个大于十第四个一般,第五个也比较大,最后一个还好。
特征根判定法:计算 XTX 的特征根,使用条件数来判断有无多重共线性。
λi=(3.115674e+11,5.775479e+09,5.607608e+08, 4.159931e+06,1.332862e+06,1.234899e)
λm=max(λi)=3.115674e+11
得到ki =(1.00, 53.95,55.62, 74897.24, 233758.17,2523020.07)
条件数中,有4个条件 k>>100,存在严重的多重共线性
有一个条件 10≤k<100,有较强的多重共线性。这一节讲述了多重共线性的成因、恶劣影响以及判断方法(直接判断法或者计算的方法来看是否有多重共线性)。