主成分分析①

简介: 简述主成分分析(Principal Component Analysis,PCA)是一种在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计分析方法,它的核心是数据降维思想,即通过降维的手段实现多指标向综合指标的转化,而转化后的综合指标,我们称之为主成分。

简述

  • 主成分分析(Principal Component Analysis,PCA)是一种在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计分析方法,它的核心是数据降维思想,即通过降维的手段实现多指标向综合指标的转化,而转化后的综合指标,我们称之为主成分。其中,每个主成分都是众多原始变量的线性组合,且每个主成分之间互不相关,这使得主成分比原始变量具有某些更为优越的性能。在实际应用中,如果原始数据集本身较为复杂,那么使用主成分分析可以使我们仅需要考虑几个综合指标,而且又不至于损失太多信息。一方面,它更容易帮助我们抓住问题的主要矛盾;另一方面,它又极大的提高了我们的分析效率。例如,使用PCA可将30个相关(很可能冗余)的环境变量转化为5个无关的成分变量,并且尽可能地保留原始数据集的信息。
  • 总结来说:主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。

计算步骤

  • 对原始数据进行标准化处理,消除量纲
  • 计算标准化数据的相关系数矩阵
  • 计算标准化数据的相关系数矩阵的特征根及对应的特征向量
  • 选出最大的特征根,对应的特征向量等于第一主成分的系数;选出第二大的特征根,对应的特征向量等于第二主成分的系数;以此类推
  • 计算累积贡献率,选择恰当的主成分个数;
  • 解释主成分:写出前k个主成分的表达式
  • 确定各样本的主成分得分
  • 根据主成分得分的数据,做进一步的统计分析

R的基础安装包提供了PCA为 princomp()

principal()
含多种可选的方差旋转方法的主成分分析
fa()
可用主轴、最小残差、加权最小平方或最大似然法估计的因子分析
fa.parallel()
含平行分析的碎石图
factor.plot()
绘制因子分析或主成分分析的结果
fa.diagram()
绘制因子分析或主成分的载荷矩阵
scree()
因子分析和主成分分析的碎石图

  • 判断主成分的个数
  • 根据先验经验和理论知识判断主成分数;
  • 根据要解释变量方差的积累值的阈值来判断需要的主成分数;
  • 通过检查变量间k×k的相关系数矩阵来判断保留的主成分数。
  • 最常见的是基于特征值的方法。每个主成分都与相关系数矩阵的特征值相关联,第一主成分与最大的特征值相关联,第二主成分与第二大的特征值相关联,依此类推。
setwd("E:\\Rwork")
library(psych)
data<-read.csv("2012MLB.csv", header=T, sep=",")
fa.parallel(data[,-1], fa = "pc", n.iter = 100,
            show.legend = FALSE, main = "screen plot with parallel analysis")
pc <- principal(data[,-1], nfactors = 2)
plot(pc$values,type = "b")
> pc
Principal Components Analysis
Call: principal(r = data[, -1], nfactors = 2)
Standardized loadings (pattern matrix) based upon correlation matrix
      RC1   RC2    h2    u2 com
G   -0.08 -0.61 0.374 0.626 1.0
R    0.86  0.44 0.931 0.069 1.5
H    0.98 -0.12 0.966 0.034 1.0
H1B  0.81 -0.49 0.899 0.101 1.7
H2B  0.67 -0.05 0.449 0.551 1.0
H3B  0.20 -0.52 0.312 0.688 1.3
HR   0.23  0.90 0.856 0.144 1.1
RBI  0.85  0.46 0.942 0.058 1.5
BB  -0.07  0.26 0.072 0.928 1.2
SO  -0.63  0.48 0.624 0.376 1.9
SB  -0.05 -0.36 0.131 0.869 1.0
AVG  0.98 -0.09 0.976 0.024 1.0
OBP  0.90  0.09 0.826 0.174 1.0

                       RC1  RC2
SS loadings           5.81 2.55
Proportion Var        0.45 0.20
Cumulative Var        0.45 0.64
Proportion Explained  0.69 0.31
Cumulative Proportion 0.69 1.00

Mean item complexity =  1.3
Test of the hypothesis that 2 components are sufficient.

The root mean square of the residuals (RMSR) is  0.09 
 with the empirical chi square  37.9  with prob <  0.94 

Fit based upon off diagonal values = 0.96
  • 剔除掉与主成分1低相关的变量
data1 <-data[,c(3:5,9,13,14)]
fa.parallel(data1, fa = "pc", n.iter = 100,
            show.legend = FALSE, main = "screen plot with parallel analysis")
pc <- principal(data1, nfactors = 1)
Principal Components Analysis
Call: principal(r = data1, nfactors = 1)
Standardized loadings (pattern matrix) based upon correlation matrix
     PC1   h2    u2 com
R   0.89 0.79 0.206   1
H   0.96 0.92 0.076   1
H1B 0.79 0.62 0.378   1
RBI 0.88 0.78 0.218   1
AVG 0.97 0.95 0.054   1
OBP 0.92 0.85 0.152   1

                PC1
SS loadings    4.92
Proportion Var 0.82

Mean item complexity =  1
Test of the hypothesis that 1 component is sufficient.

The root mean square of the residuals (RMSR) is  0.12 
 with the empirical chi square  13.66  with prob <  0.13 

Fit based upon off diagonal values = 0.98
目录
相关文章
|
11月前
|
网络协议 算法 数据库
OSPF中的Stub区域详解
OSPF中的Stub区域详解
529 2
|
11月前
|
安全 物联网 量子技术
量子加密技术
量子加密技术
740 1
|
11月前
|
消息中间件 运维 UED
消息队列运维实战:攻克消息丢失、重复与积压难题
消息队列(MQ)作为分布式系统中的核心组件,承担着解耦、异步处理和流量削峰等功能。然而,在实际应用中,消息丢失、重复和积压等问题时有发生,严重影响系统的稳定性和数据的一致性。本文将深入探讨这些问题的成因及其解决方案,帮助您在运维过程中有效应对这些挑战。
234 1
|
12月前
|
机器学习/深度学习 边缘计算 人工智能
深度学习在图像处理中的应用与挑战
本文旨在探讨深度学习技术在图像处理领域的应用及其面临的主要挑战。通过分析深度学习模型如卷积神经网络(CNN)在图像分类、目标检测和图像分割等任务中的表现,揭示了其在提高精度、自动化特征提取方面的巨大潜力。同时,本文指出了当前深度学习在图像处理中的数据需求、计算资源消耗、模型解释性以及对抗攻击等方面的挑战,并提出了可能的解决方向。通过综合讨论,本文强调了深度学习在推动图像处理技术进步中的重要作用,同时也呼吁更多的研究以克服现有挑战,进一步拓宽其应用前景。
|
12月前
|
数据可视化 前端开发 搜索推荐
FLEX组件可视化设计器CSS3代码生成器
FLEX组件可视化设计器CSS3代码生成器
158 4
|
12月前
|
人工智能 安全
太空垃圾清理技术:保障轨道安全的必要措施
【10月更文挑战第8天】太空垃圾清理是保障轨道安全的必要措施。通过发展多种清理技术,提高清理效率,降低清理成本,可以有效缓解太空垃圾问题对太空活动的影响。同时,加强国际合作,共同制定太空垃圾清理的标准和规范,也是未来太空垃圾清理工作的重要方向。太空是全人类的共同财产,保护太空环境需要各个国家之间共同努力与合作。
|
存储 Java 开发工具
阿里云无影云首次体验,本地Mac与远程Window完美结合
今天首次听说阿里云无影云桌面,赶紧免费体验一下,感觉非常不错。这个远程的桌面不仅可以用来日常办公,而且还可以解决Mac Book用户常见的系统兼容类问题,比如:某些场景下需要Windows操作系统环境,某些情况下需要远程连接Windows操作系统。这种场景在Mac操作系统下实现起来都比较麻烦。
3928 3
|
存储 弹性计算 前端开发
阿里无影云桌面测评
阿里无影云桌面测评
阿里无影云桌面测评
|
存储 NoSQL 算法
DB 与 Elasticsearch 混合之应用系统场景分析探讨
从技术、业务两个层面探讨,为什么要使用 DB 结合 ES 混用的模式。
10735 1
DB 与 Elasticsearch 混合之应用系统场景分析探讨