主成分分析-阿里云开发者社区

主成分分析

2023-12-18 116

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 主成分分析

1 主成分分析简介

主成分分析（Principal Component Analysis,PCA），是考察多个变量间相关性的一种多元统计方法，基本思想^[1]就是在保留原始变量尽可能多的信息的前提下达到降维的目的，从而简化问题的复杂性并抓住问题的主要矛盾。最后筛选出的几个替代原始数据的变量被称为主成分，它们是原始变量的线性组合，关系图如下：

2 主成分分析步骤

构建原始数据矩阵；
消除量纲——数据标准化；
建立协方差矩阵（或相关系数矩阵）；
求出特征值、特征向量；
根据方差、累计方差贡献率确定主成分个数；
求出综合得分，给出现实意义的解释。

3 R语言实战

依据《R语言实战》提供的实例，下面用psych程序包中的USJudgeRatings数据集进行主成分分析，这个数据集描述的是律师对美国高等法院法官的评分情况，部分数据集及各变量含义如下所示：

>install.packages("psych")
>library(psych)
>USJudgeRatingsz

3.1 数据预处理

数据集中的CONT变量表示的是律师与法官的联系次数，由于该变量对评分情况没有影响，考虑在进行主成分分析时将其剔除，用cor函数检查变量间的相关性。

从相关系数矩阵中可以发现，有几个变量之间的相关性还是非常强的，表明这份数据适合做主成分分析。

3.2 构建主成分模型

R中构建主成分模型的常用函数有pricipal() 和princomp()，两者不同之处在于: pricipal() 只返回最佳nfactor的子集，而princomp() 将会得到和变量个数一样多的主成分。

使用psych包中的pricipal()

>pc<-principal(USJudgeRatings,nfactors=1)
>pc

使用基础函数pricomp()

>pc<-princomp(USJudgeRatings,cor=T)
>summary(pc)

运行结果如下所示：

3.3 确定主成分个数

原则^[2]：

根据先验经验和理论知识判断主成分个数
根据解释变量的累积方差贡献率来判断主成分个数
通过检查变量间的相关系数矩阵来判断保留的主成分个数

碎石图能够直观地展现要选择的主成分数目，图中急剧的中断表明需要提取的主成分的适当数量，从图中可知最佳的主成分个数为1。

>fa.parallel(cor(USJudgeRatings),fa="pc",n.iter = 100,show.legend = F,main = "Scree plot with parallel analysis")

3.4 提取主成分

从pricipal() 和碎石图的运行结果可知，第一主成分（PC1）与每一个变量都高度相关，也就是说，PC1是一个可用来进行一般性评价的维度。

运行结果中的h2指主成分对每个变量的方差解释度，u2指方差无法被主成分解释的比例。例如，法官正直度（INTG）84%的方差可以用PC1来解释，15.65%的方差不能由PC1来解释。SS loadings行包含了与主成分相关联的特征值。Proportion Var行表示的是每个主成分对整个数据集的解释程度。

3.5 主成分旋转

旋转后得到的主成分能更容易的解释原始变量，常用的旋转方法有：

正交旋转：旋转后的主成分不相关
斜交旋转：旋转后的主成分相关

本例中采用正交旋转中的方差极大旋转进行分析：

>rc<-principal(USJudgeRatings,nfactors = 1,rotate="varimax")
> rc

旋转后的结果如下：

3.6 计算主成分得分

从原始数据中获取主成分得分

pc<-principal(USJudgeRatings,nfactors = 1,scores=T )
pc$scores

当主成分分析基于相关系数矩阵时，无法从原始数据获得主成分得分，但是可以计算主成分得分的系数。

rc<-principal(cor(USJudgeRatings),nfactors = 1)

4 模型评价

从运行结果可知，PC1的累积方差贡献率为0.92，说明第一主成分可以解释原始变量92%的方差变化，模型拟合效果良好。

参考资料

[1]

基本思想: 《多元统计分析第5版_何晓群》

[2]

原则: 《R语言实战》

主成分分析

1 主成分分析简介

2 主成分分析步骤

3 R语言实战

3.1 数据预处理

3.2 构建主成分模型

3.3 确定主成分个数

3.4 提取主成分

3.5 主成分旋转

3.6 计算主成分得分

4 模型评价

参考资料

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

主成分分析

1 主成分分析 简介

2 主成分分析 步骤

3 R语言实战

3.1 数据预处理

3.2 构建主成分模型

3.3 确定主成分个数

3.4 提取主成分

3.5 主成分旋转

3.6 计算主成分得分

4 模型评价

参考资料

热门文章

最新文章

相关电子书

1 主成分分析简介

2 主成分分析步骤