多重共线性-2| 学习笔记

简介: 快速学习多重共线性-2。

开发者学堂课程【机器学习算法 :多重共线性-2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7214


多重共线性-2

 

一、 案例

基于历史数据构建国家财政收入回归模型,判断已有解释变量中是否存在多重共线性,存在请消除

已知的自变量有,农业、工业、建筑业、人口,因变量是财政收入。

image.png

直接观察法:计算各自变量之间的相关系数,强线性关系得变量较多,存在较强得线性相关

就是说 x1 和 x1 的相关系数是1,那 x1 和 x2 按照公式算一下相关系数,x1 和 x2 是0.9963,x1 和 x3 是0.9918.。从图中可以看到是对称的 x1x2 和 x2x1 的值是一样的。就可以看到这个里面多个变量间存在强相关关系,就可以认为这当中必然存在多重线性。

方差扩大因子法:计算((X*)TX*)-1其对角线即为image.png还可以计算image.png。对输入的变量进行标准化,它的转置进行计算,它的逆就是公式中的含义。代入公式计算image.pngimage.png结果如下图

image.pngimage.png>>1,整体存在严重得多重共线性,根据image.png可以判断j=1,2,3,4,5时,多重共线性严重。第一个大于10,第二个大于一百,第三个大于十第四个一般,第五个也比较大,最后一个还好。

特征根判定法:计算 XTX 的特征根,使用条件数来判断有无多重共线性。

λi=(3.115674e+11,5.775479e+09,5.607608e+08, 4.159931e+06,1.332862e+06,1.234899e)

λm=max(λi)=3.115674e+11

image.png

得到ki =(1.00, 53.95,55.62, 74897.24, 233758.17,2523020.07)

条件数中,有4个条件 k>>100,存在严重的多重共线性

有一个条件 10≤k<100,有较强的多重共线性。这一节讲述了多重共线性的成因、恶劣影响以及判断方法(直接判断法或者计算的方法来看是否有多重共线性)。

相关文章
|
11天前
|
机器学习/深度学习 Serverless 定位技术
深入理解多重共线性:基本原理、影响、检验与修正策略
本文将深入探讨多重共线性的本质,阐述其重要性,并提供有效处理多重共线性的方法,同时避免数据科学家常犯的陷阱。
15 3
|
6月前
|
机器学习/深度学习 数据可视化 算法
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
|
6月前
R语言多重比较方法
R语言多重比较方法
|
6月前
|
数据可视化
R语言泊松回归对保险定价建模中的应用:风险敞口作为可能的解释变量
R语言泊松回归对保险定价建模中的应用:风险敞口作为可能的解释变量
|
6月前
回归分析与相关分析的区别和联系
回归分析与相关分析的区别和联系
|
机器学习/深度学习 数据采集 索引
探索数据的维度:多元线性回归在实际应用中的威力
探索数据的维度:多元线性回归在实际应用中的威力
|
11月前
微分方程——药物在体内分布的房室模型
微分方程——药物在体内分布的房室模型
157 0
|
测试技术 Python
为什么以及如何在多重假设检验中调整 P 值
为什么以及如何在多重假设检验中调整 P 值
307 0
|
数据挖掘
假设检验多重比较的P值修正
在进行假设检验时,我们通常会使用P值来判断样本数据是否支持原假设。当我们进行多重比较时,也就是对多个假设进行检验时,如果不进行P值修正,就会出现多重比较问题。多重比较问题指的是在进行多次假设检验时,由于进行多次检验,就会增加发生假阳性的概率,从而导致P值的误判。这种误判可能会导致我们错误地拒绝原假设或者错误地接受备择假设,从而影响数据分析的准确性和可靠性。为了避免多重比较问题,进行P值修正可以有效地避免多重比较问题的发生。
557 0
|
机器学习/深度学习 算法
机器学习中的数学原理——多重回归算法
机器学习中的数学原理——多重回归算法
230 0