一文读懂 主成分分析 与 因子分析(二)

简介: 一文读懂 主成分分析 与 因子分析

四、附因子分析案例

本文原本是给大家说明主成分分析和因子分析之间的关系的。并不是教大家如何解决实际问题。可能有些小伙伴看懂了文章,却仍然不知道如何用主成分分析或者因子分析来解决一个实际问题。


今天补充一个案例,案例来源于SPSSPRO软件官方案例。


另外给大家推荐一下这个SPSSPRO软件


它支持非常多的数据分析模型(算法),还带有一个NoteBook(Python数据分析),每个算法都有文字介绍,还有案例数据,案例视频等,上手难度很小,大家可以用用(对于小白来说,应该比SPPSS这些软件友好)。


2e07f3b8a2d78bdb26f66ca9dbb5ca07_9d67eb0c458442758b83ee6f266981cd.png

4.1 案例示例

仅供参考,碎石图、热力图什么的都可以学着放在你的论文中。不过他写的不一定好哦,其中一些说法并不是绝对的,取其精华即可。


根据某地区 2021 年的生产总值、人均可支配收入等多个指标,量化评估多个省市地区的经济发展水平排名或者各指标的权重。(思考:你认为衡量某地经济发展水平,还应该搜集哪些方面的数据?)


4.11 案例数据

355c316040364f070ff289f8e13f2825_a9f3bbfc7f5f4048c21557828726f263.png

因子分析所需数据为若干个定量变量,和一个可选的定类索引项。在本例中,生产总值(亿元)、人均可支配收入(元)、进出口总额(千美元)、财政预算收入(亿元)、工业企业流动资产(亿元)会用于提取因子,而地区则是索引项。

4.12案例操作

4283e0826442bec867028574cfdff938_11e5004d627c7ca5c99dfaf3487a6ac5.png

1.新建项目;

2.上传数据;

3.选择对应数据打开后进行预览,确认无误后点击开始分析;

07bc5e74358ed60774d71068802ded89_76eb9b2c4d568707ab8dac6c55aaa675.png

4.选择【因子分析】;


5.查看对应的数据数据格式,【因子分析】要求输入数据为放入 [定量] 自变量 X(变量数 ≥2);


6.选择主成分个数、因子旋转方式(注意:在因子分析中倾向于描述原始变量之间的相关关系,所以一般情况下在因子分析选取的主成分个数也就是自变量 X 个数,而特征根选择则是根据设定的阈值为界限,以大于该界限对应的主成分个数作为选取的主成分个数,默认为 1。);


7.点击【开始分析】,完成全部操作。

4.13 输出结果

b33b87341864f73858f1f25fa03fa01c_8eeb9bea83f6aa414c6825126221bd14.png

输出结果 1:KMO 检验和 Bartlett 的检验

图表说明:KMO 检验的结果显示,KMO 的值为 0.775,同时,Bartlett 球形检验的结果显示,显著性 P 值为 0.000,水平上呈现显著性,拒绝原假设,即表明各变量间具有相关性,因子分析的结果是有效的,结果可靠程度为一般。


输出结果 2:方差解释表格

1e003ebdac9d584679689b8b10ef0d54_824fed5f423a8c0675fa21d1c42abe59.png

图表说明:

上表为总方差解释表格,主要是看因子对于变量解释的贡献率(可以理解为究竟需要多少因子才能把变量表达为 100%),一般都要表达到 90%以上才可以,否则就要调整因子数量。方差解释表中,前两个因子累积解释的贡献率达到 94.296%(一般情况下大于 90%即可),说明使用前两个因子就能够很好地评估省市地区的经济发展水平。前三个因子则效果更佳,累积解释的贡献率达到 98.921%。


输出结果 3:碎石图

335090cab10a647686aa43f9b61198dd_dcb70d19f96140d0407303e12aec0e0a.png

图表说明: 当折线由陡峭突然变得平稳时,陡峭到平稳对应的主成分个数即为参考提取主成分个数。

结果分析:由图可知,从第三个主成分开始,主成分的特征根值开始缓慢的下降,在满足因子累计解释的贡献度达到 90%的情况下,我们可以选择保留三个主成分。

输出结果 4:因子载荷系数表

5efbc649b64b5db9158e20343806fd79_be150579273b81167de8cce918e8be76.png

图表说明: 上表为因子载荷系数表,可以分析到每个因子中隐变量的重要性。


结果分析:第一个因子与生产总值、进出口总额、财政预算收入、工业企业流动资产这四个变量的相关程度较大,可以概括为“地方发展况状”;第二个因子与人均可支配收入这一个变量的相关程度较大,可以概括为“人民富裕程度”。


输出结果 5:因子载荷矩阵热力图

fa10fdfde09ced2f70353cce71cf0a3f_e3fde03c7f5dc53d744a0e83e229cb17.png

图表说明: 上图为载荷矩阵热力图,可以分析到每个因子中隐变量的重要性,热力图颜色越深说明相关性越大。


结果分析:第一个因子与生产总值、进出口总额、财政预算收入、工业企业流动资产这四个变量的相关程度较大,第二个因子与人均可支配收入这一个变量的相关程度较大。


输出结果 6:因子载荷象限分析

d64ce3363dc1f75c2fe68776872db5ba_93e97e095a650181c8078575c35ce2fb.png

ce71892a8c80887c9c149d90c679447b_dcf1fe82375903d4eb1532124a3da324.png

图表说明:因子载荷图通过将多因子降维成双因子或者三因子,通过象限图的方式呈现因子的空间分布。当保留两个因子时作出二维因子载荷象限。当保留三个因子时作出三维因子载荷象限。

输出结果 7:成分矩阵表

58d54f4d985f561178450aacda8f574b_76e28a983328e92b5b0eddf190adbaa7.png

图表说明: 上表为成份矩阵表,意在说明各个成分的所包含的因子得分系数(主成分载荷),用于计算出成分得分,得出主成分公式。

结果分析:模型的公式:

F1=0.236× 生产总值(亿元)+0.057× 人均可支配收入(元)+0.192× 进出口总额(千美元)+0.214× 财政预算收入(亿元)+0.23× 工业企业流动资产(亿元)
F2=0.244× 生产总值(亿元)+1.348×人均可支配收入(元)+0.618× 进出口总额(千美元)+0.552× 财政预算收入(亿元)+0.298× 工业企业流动资产(亿元)
F3=0.063× 生产总值(亿元)+0.821× 人均可支配收入(元)+4.519× 进出口总额(千美元)+2.024×财政预算收入(亿元)+1.681× 工业企业流动资产(亿元)
F4=-3.888× 生产总值(亿元)+0.164×人均可支配收入(元)+0.517× 进出口总额(千美元)-0.199× 财政预算收入(亿元)+5.176× 工业企业流动资产(亿元)
F5=-1.375× 生产总值(亿元)+0.605× 人均可支配收入(元)+0.94× 进出口总额(千美元)+8.783×财政预算收入(亿元)-1.017× 工业企业流动资产(亿元) 由上可以得到:
F=(0.669/1.0)×F1+(0.274/1.0)×F2+(0.046/1.0)×F3+(0.006/1.0)×F4+(0.005/1.0)×F5

输出结果 8:因子权重分析

bdf7103763f6fe22ce47dd3eb7fa38bf_4f6921ea4bcb119eb1e3be03ceeb3ee3.png

图表说明: 上表为因子分析的根据载荷系数等信息所做的主成分权重分析,其计算公式为:方差解释率/旋转后累积方差解释率。


结果分析:因子的权重计算结果显示,因子 1 的权重为 66.9%、因子 2 的权重为 27.396%、因子 3 的权重为 4.625%、因子 4 的权重为 0.576%、因子 5 的权重为 0.503%。


输出结果 9:综合得分表

1ff11c9eab38ac42f1e2a3d20a3e4af3_31872b5285d824fecdb10ce0aa2fb09c.png

图表说明:综合得分根据F值计算得到的综合得分进行降序排序,可得到各个样本的综合得分与排名情况。


结果分析:由综合得分可知,广东省的综合得分最高,也就是广东省的经济发展水平排名第一,其次是江苏省。


4.14注意事项

因子分析要求变量之间的共线性或相关关系比较强,否则不能通过 KMO 检验和 Bartlett 球形检验;

因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系(可侧重分析输出结果 4、输出结果 5、输出结果 6);

因子分析时通常需要综合自己的专业知识,以及软件结果进行综合判断,即使是特征根值小于 1,也一样可以提取主成分;

KMO 值为 null 不存在可能导致的原因为:

 (1)样本量过少容易导致相关系数过高,一般希望分析样本量大于 5 倍分析项个数;

 (2)各个分析项之间的相关关系过高或过低。


相关文章
|
机器学习/深度学习 存储 算法
机器学习面试笔试知识点之非监督学习-K 均值聚类、高斯混合模型(GMM)、自组织映射神经网络(SOM)
机器学习面试笔试知识点之非监督学习-K 均值聚类、高斯混合模型(GMM)、自组织映射神经网络(SOM)
113 0
|
6月前
|
数据可视化
主成分分析PCA谱分解、奇异值分解SVD预测分析运动员表现数据和降维可视化
主成分分析PCA谱分解、奇异值分解SVD预测分析运动员表现数据和降维可视化
|
资源调度 算法 数据可视化
t_SNE 非线性降维基础原理
本文记录了个人关于 非线性降维算法 t-SNE(t-Distributed Stochastic Neighbor Embedding)的学习理解,以供参考学习
268 0
|
数据可视化 Linux
PCA分析基本知识和数学原理
PCA分析基本知识和数学原理
|
机器学习/深度学习 数据挖掘
一文读懂 主成分分析 与 因子分析(一)
一文读懂 主成分分析 与 因子分析
|
机器学习/深度学习 人工智能 数据挖掘
【机器学习】主成分分析(PCA)——利用特征值分解(EVD)(理论+图解+公式推导)
【机器学习】主成分分析(PCA)——利用特征值分解(EVD)(理论+图解+公式推导)
312 0
【机器学习】主成分分析(PCA)——利用特征值分解(EVD)(理论+图解+公式推导)
|
机器学习/深度学习 人工智能 移动开发
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
362 0
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
|
机器学习/深度学习 人工智能 资源调度
【机器学习】线性回归——最小二乘法的概率解释高斯噪声(理论+图解+公式推导)
【机器学习】线性回归——最小二乘法的概率解释高斯噪声(理论+图解+公式推导)
303 0
【机器学习】线性回归——最小二乘法的概率解释高斯噪声(理论+图解+公式推导)
|
机器学习/深度学习 人工智能 算法
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
346 0
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
|
机器学习/深度学习 人工智能 资源调度
【机器学习】主成分分析(PCA)——利用奇异值分解(SVD)(理论+图解+公式推导)
【机器学习】主成分分析(PCA)——利用奇异值分解(SVD)(理论+图解+公式推导)
376 0
【机器学习】主成分分析(PCA)——利用奇异值分解(SVD)(理论+图解+公式推导)