四、附因子分析案例
本文原本是给大家说明主成分分析和因子分析之间的关系的。并不是教大家如何解决实际问题。可能有些小伙伴看懂了文章,却仍然不知道如何用主成分分析或者因子分析来解决一个实际问题。
今天补充一个案例,案例来源于SPSSPRO软件官方案例。
另外给大家推荐一下这个SPSSPRO软件
它支持非常多的数据分析模型(算法),还带有一个NoteBook(Python数据分析),每个算法都有文字介绍,还有案例数据,案例视频等,上手难度很小,大家可以用用(对于小白来说,应该比SPPSS这些软件友好)。
4.1 案例示例
仅供参考,碎石图、热力图什么的都可以学着放在你的论文中。不过他写的不一定好哦,其中一些说法并不是绝对的,取其精华即可。
根据某地区 2021 年的生产总值、人均可支配收入等多个指标,量化评估多个省市地区的经济发展水平排名或者各指标的权重。(思考:你认为衡量某地经济发展水平,还应该搜集哪些方面的数据?)
4.11 案例数据
因子分析所需数据为若干个定量变量,和一个可选的定类索引项。在本例中,生产总值(亿元)、人均可支配收入(元)、进出口总额(千美元)、财政预算收入(亿元)、工业企业流动资产(亿元)会用于提取因子,而地区则是索引项。
4.12案例操作
1.新建项目;
2.上传数据;
3.选择对应数据打开后进行预览,确认无误后点击开始分析;
4.选择【因子分析】;
5.查看对应的数据数据格式,【因子分析】要求输入数据为放入 [定量] 自变量 X(变量数 ≥2);
6.选择主成分个数、因子旋转方式(注意:在因子分析中倾向于描述原始变量之间的相关关系,所以一般情况下在因子分析选取的主成分个数也就是自变量 X 个数,而特征根选择则是根据设定的阈值为界限,以大于该界限对应的主成分个数作为选取的主成分个数,默认为 1。);
7.点击【开始分析】,完成全部操作。
4.13 输出结果
输出结果 1:KMO 检验和 Bartlett 的检验
图表说明:KMO 检验的结果显示,KMO 的值为 0.775,同时,Bartlett 球形检验的结果显示,显著性 P 值为 0.000,水平上呈现显著性,拒绝原假设,即表明各变量间具有相关性,因子分析的结果是有效的,结果可靠程度为一般。
输出结果 2:方差解释表格
图表说明:
上表为总方差解释表格,主要是看因子对于变量解释的贡献率(可以理解为究竟需要多少因子才能把变量表达为 100%),一般都要表达到 90%以上才可以,否则就要调整因子数量。方差解释表中,前两个因子累积解释的贡献率达到 94.296%(一般情况下大于 90%即可),说明使用前两个因子就能够很好地评估省市地区的经济发展水平。前三个因子则效果更佳,累积解释的贡献率达到 98.921%。
输出结果 3:碎石图
图表说明: 当折线由陡峭突然变得平稳时,陡峭到平稳对应的主成分个数即为参考提取主成分个数。
结果分析:由图可知,从第三个主成分开始,主成分的特征根值开始缓慢的下降,在满足因子累计解释的贡献度达到 90%的情况下,我们可以选择保留三个主成分。
输出结果 4:因子载荷系数表
图表说明: 上表为因子载荷系数表,可以分析到每个因子中隐变量的重要性。
结果分析:第一个因子与生产总值、进出口总额、财政预算收入、工业企业流动资产这四个变量的相关程度较大,可以概括为“地方发展况状”;第二个因子与人均可支配收入这一个变量的相关程度较大,可以概括为“人民富裕程度”。
输出结果 5:因子载荷矩阵热力图
图表说明: 上图为载荷矩阵热力图,可以分析到每个因子中隐变量的重要性,热力图颜色越深说明相关性越大。
结果分析:第一个因子与生产总值、进出口总额、财政预算收入、工业企业流动资产这四个变量的相关程度较大,第二个因子与人均可支配收入这一个变量的相关程度较大。
输出结果 6:因子载荷象限分析
图表说明:因子载荷图通过将多因子降维成双因子或者三因子,通过象限图的方式呈现因子的空间分布。当保留两个因子时作出二维因子载荷象限。当保留三个因子时作出三维因子载荷象限。
输出结果 7:成分矩阵表
图表说明: 上表为成份矩阵表,意在说明各个成分的所包含的因子得分系数(主成分载荷),用于计算出成分得分,得出主成分公式。
结果分析:模型的公式:
F1=0.236× 生产总值(亿元)+0.057× 人均可支配收入(元)+0.192× 进出口总额(千美元)+0.214× 财政预算收入(亿元)+0.23× 工业企业流动资产(亿元) F2=0.244× 生产总值(亿元)+1.348×人均可支配收入(元)+0.618× 进出口总额(千美元)+0.552× 财政预算收入(亿元)+0.298× 工业企业流动资产(亿元) F3=0.063× 生产总值(亿元)+0.821× 人均可支配收入(元)+4.519× 进出口总额(千美元)+2.024×财政预算收入(亿元)+1.681× 工业企业流动资产(亿元) F4=-3.888× 生产总值(亿元)+0.164×人均可支配收入(元)+0.517× 进出口总额(千美元)-0.199× 财政预算收入(亿元)+5.176× 工业企业流动资产(亿元) F5=-1.375× 生产总值(亿元)+0.605× 人均可支配收入(元)+0.94× 进出口总额(千美元)+8.783×财政预算收入(亿元)-1.017× 工业企业流动资产(亿元) 由上可以得到: F=(0.669/1.0)×F1+(0.274/1.0)×F2+(0.046/1.0)×F3+(0.006/1.0)×F4+(0.005/1.0)×F5
输出结果 8:因子权重分析
图表说明: 上表为因子分析的根据载荷系数等信息所做的主成分权重分析,其计算公式为:方差解释率/旋转后累积方差解释率。
结果分析:因子的权重计算结果显示,因子 1 的权重为 66.9%、因子 2 的权重为 27.396%、因子 3 的权重为 4.625%、因子 4 的权重为 0.576%、因子 5 的权重为 0.503%。
输出结果 9:综合得分表
图表说明:综合得分根据F值计算得到的综合得分进行降序排序,可得到各个样本的综合得分与排名情况。
结果分析:由综合得分可知,广东省的综合得分最高,也就是广东省的经济发展水平排名第一,其次是江苏省。
4.14注意事项
因子分析要求变量之间的共线性或相关关系比较强,否则不能通过 KMO 检验和 Bartlett 球形检验;
因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系(可侧重分析输出结果 4、输出结果 5、输出结果 6);
因子分析时通常需要综合自己的专业知识,以及软件结果进行综合判断,即使是特征根值小于 1,也一样可以提取主成分;
KMO 值为 null 不存在可能导致的原因为:
(1)样本量过少容易导致相关系数过高,一般希望分析样本量大于 5 倍分析项个数;
(2)各个分析项之间的相关关系过高或过低。