多重共线性-2| 学习笔记

简介: 快速学习多重共线性-2。

开发者学堂课程【机器学习算法 :多重共线性-2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7214


多重共线性-2

 

一、 案例

基于历史数据构建国家财政收入回归模型,判断已有解释变量中是否存在多重共线性,存在请消除

已知的自变量有,农业、工业、建筑业、人口,因变量是财政收入。

image.png

直接观察法:计算各自变量之间的相关系数,强线性关系得变量较多,存在较强得线性相关

就是说 x1 和 x1 的相关系数是1,那 x1 和 x2 按照公式算一下相关系数,x1 和 x2 是0.9963,x1 和 x3 是0.9918.。从图中可以看到是对称的 x1x2 和 x2x1 的值是一样的。就可以看到这个里面多个变量间存在强相关关系,就可以认为这当中必然存在多重线性。

方差扩大因子法:计算((X*)TX*)-1其对角线即为image.png还可以计算image.png。对输入的变量进行标准化,它的转置进行计算,它的逆就是公式中的含义。代入公式计算image.pngimage.png结果如下图

image.pngimage.png>>1,整体存在严重得多重共线性,根据image.png可以判断j=1,2,3,4,5时,多重共线性严重。第一个大于10,第二个大于一百,第三个大于十第四个一般,第五个也比较大,最后一个还好。

特征根判定法:计算 XTX 的特征根,使用条件数来判断有无多重共线性。

λi=(3.115674e+11,5.775479e+09,5.607608e+08, 4.159931e+06,1.332862e+06,1.234899e)

λm=max(λi)=3.115674e+11

image.png

得到ki =(1.00, 53.95,55.62, 74897.24, 233758.17,2523020.07)

条件数中,有4个条件 k>>100,存在严重的多重共线性

有一个条件 10≤k<100,有较强的多重共线性。这一节讲述了多重共线性的成因、恶劣影响以及判断方法(直接判断法或者计算的方法来看是否有多重共线性)。

相关文章
|
10月前
最大流圆桌问题(二分图多重匹配问题)
最大流圆桌问题(二分图多重匹配问题)
73 0
|
4月前
|
机器学习/深度学习 Serverless 定位技术
深入理解多重共线性:基本原理、影响、检验与修正策略
本文将深入探讨多重共线性的本质,阐述其重要性,并提供有效处理多重共线性的方法,同时避免数据科学家常犯的陷阱。
105 3
|
10月前
|
机器学习/深度学习 人工智能 算法
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
588 0
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
|
10月前
|
存储 数据采集 数据可视化
R语言拟合线性混合效应模型、固定效应随机效应参数估计可视化生物生长、发育、繁殖影响因素
R语言拟合线性混合效应模型、固定效应随机效应参数估计可视化生物生长、发育、繁殖影响因素
|
10月前
|
机器学习/深度学习 数据可视化 算法
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
|
10月前
R语言多重比较方法
R语言多重比较方法
|
10月前
|
机器学习/深度学习 开发框架 算法
R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究
R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究
【数理统计】单因素方差分析
【数理统计】单因素方差分析
432 0
【数理统计】单因素方差分析
|
数据挖掘
假设检验多重比较的P值修正
在进行假设检验时,我们通常会使用P值来判断样本数据是否支持原假设。当我们进行多重比较时,也就是对多个假设进行检验时,如果不进行P值修正,就会出现多重比较问题。多重比较问题指的是在进行多次假设检验时,由于进行多次检验,就会增加发生假阳性的概率,从而导致P值的误判。这种误判可能会导致我们错误地拒绝原假设或者错误地接受备择假设,从而影响数据分析的准确性和可靠性。为了避免多重比较问题,进行P值修正可以有效地避免多重比较问题的发生。
647 0
|
机器学习/深度学习 算法 Python
机器学习 - [源码实现决策树小专题]决策树中混杂度数值度量的Python编程实现(信息熵和基尼系数的计算)
顾名思义,所谓混杂度就是指无序程度,一般使用“信息熵”(香浓熵)或者“及逆序数进行度量”。本文介绍及其学习决策树算法中混杂度数值度量的Python编程实现
197 0