R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析

简介: R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析

数据显示2019年全国城镇私营单位就业人员年平均工资为53604元,比上年增长8.1%,而2019年全国城镇非私营单位就业人员年平均工资为90501元,名义增长率9.8%点击文末“阅读原文”了解更多

相关视频

image.png

实际上,一直以来城镇私营单位就业人员年平均工资都要高于非私营单位,并且增长率也高与非私营单位,主要原因是非私营单位包括机关事业单位、国企、上市公司等。相对效益比较好,自然平均工资水平要高于私营企业。但是,这就会导致私营单位与非私营单位的平均工资差距持续扩大,富的越富,穷的越穷,公私单位工资分歧如果继续扩大,私营企业的竞争力将受到影响,对中国的科技创新和社会进步将构成阻碍。

我们帮助客户通过从不同行业,不同地区的私营单位就业人员平均工资的分析,给予具有针对性的政策建议,正确的引导私营企业向着快速发展的方向前进,这既是现实需要,也是共同富裕理念的需要。


数据准备

本文数据来自国家统计局中国统计年鉴,选自行业分城镇私营单位就业人员平均工资,相关经济指标有农、林、牧、渔业,制造业,电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,信息传输、软件和信息技术服务业,金融业,房地产业,租赁和商务服务业,科学研究和技术服务业,水利、环境和公共设施管理业,居民服务、修理和其他服务业,教育,卫生和社会工作,文化、体育和娱乐业这17个经济指标。地区按省份划分,由于西藏地区数据具有较大缺失,因此选取了除台湾省以外的22个省份,4个直辖市,以及除西藏自治区以外的4个自治区,共30个地区的数据进行研究。

 

相关性分析

 

利用R软件绘制出原有变量的的相关系数饼图

d882ca98909582af682955230a7b77bb.png

从图中可以看出相关系数矩阵中大多数变量之间的相关系数取值较大,且从热力图的颜色可以判断变量间均为正相关关系,大部分变量间相关程度较高,满足进行主成分分析的前提。

 


点击标题查阅往期内容


R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标

60bf2b04757d428a5f9c10d4047b386f.png

确定主成分个数

 

因此利用R语言中eigen()函数输出特征值,筛选出特征值大于1的主成分,从而计算贡献率与累计贡献率。

序号 特征值 贡献率% 累计贡献率%
1 13.192309813 77.6 77.6
2 1.035339791 6.1 83.7

其次,也可以通过scree()函数利用Cattell碎石检验绘制碎石图形,表明对于这组数据的描述只需要两个主成分即可。

9bed91fbac2d19300821cd75aba6d20b.png

因子分析

 

利用R语言principal()函数进行主成分分析,输出如下表结果。

33126ab7cab54e239c00105f69899fdb.png

可以看出各个变量在第一主成分的因子载荷都很大,因此需要经过因子旋转才能对因子做相关的命名与解释,以便对实际问题进行分析。

本文采用的方法是方差最大的正交旋转法,使旋转后的因子载荷阵中的每一列元素尽可能地拉开距离,即向0或1两极分化。

dc8dbc0d06eff5553539fcda57828a9e.png

利用fa.diagram()函数将经过最大方差的因子旋转后主成分结果进行展示,如下图。

a88822e9abc7747819a5bfb5295fc6c4.png

由结果展示可以看出,第一公因子的主因子的这些行业都是一些现代化产业,也就是随着科学技术的高速发展和人民生活水平的日益提高逐渐发展起来的,因此可以命名为新型行业;第二公因子保证了人民的基础生活,因此可以命名为基础行业

132d509fbe21e487421b76a555148f06.png

对于第一主成分来说,因子得分最高的城市为北京市,为4.27,远高于其他地区,说明北京市的新型行业发展较为发达,起到引领作用,得分最低的是青海地区,可见新型产业并不是青海省主要发展产业。对于第二主成分来说,因子得分最高的地区为山东省,为2.98,说明山东省的基础行业发展水平较高于其他地区,而基础产业发展最不好的地区为山西省。

确定聚类个数

展示采用Ward最小方差法得出聚类结果。根据聚类树形图,可以初步设置聚类别的数目为4。

b16e1e7abebbe442f1a974cb3afe01dc.png

为了进一步确定聚类数目,绘制层次聚类碎石图。

0ff6602da5779d4f04c671eb55326e67.png

层次聚类碎石图也表明聚类数目为4较为合适。

 

K-means聚类

 

利用R软件输出每个类别的类数目与聚类中心,得到下表。

类别 类数目 新型行业 基础行业
1 1 4.2732372 -0.2118294  
2 7 0.3510077 1.3900181
3 8 -0.6312877 0.2117078
4 4 -0.1199993 -0.8008542

各类包含的具体地区如下图

39abf385b29508f8b47a3930f26ff438.png

可以看出,北京作为第一类城市的代表,新型行业发展远远高于其他地区,不管是金融业,教育,房地产业还是科学研究和技术服务业、信息传输,软件和信息技术服务业等,都占据着领导地位。

第二类地区基础行业最为雄厚,有些地区属于新一线城市,具有较大的资源优势和相对好的人才质量,交通运输、仓储和邮政业,批发与零售,住宿与餐饮业,建筑业都较为发达。

第三类地区位于内陆地区,部分地域广阔,资源丰富,基础行业发展状况尚可,但新型行业发展欠缺,缺乏高新技术的支持,各地区要重视对科技的投入,完善创新机制,发挥人才优势。

第四类地区既没有资源优势也没有人才优势,因此新型行业和基础行业都处于有待发展的状态。

类别 地区
第一类地区 北京
第二类地区 天津、上海、江苏、浙江、山东、广东、重庆
第三类地区 河北、内蒙古、福建、四川、云南、青海、宁夏、新疆
第四类地区 山西、辽宁、吉林、黑龙江、安徽、江西、河南、湖北、湖南、广西、海南、贵州、陕西、甘肃

相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
4月前
|
存储 数据采集 数据处理
R语言数据变换:使用tidyr包进行高效数据整形的探索
【8月更文挑战第29天】`tidyr`包为R语言的数据整形提供了强大的工具。通过`pivot_longer()`、`pivot_wider()`、`separate()`和`unite()`等函数,我们可以轻松地将数据从一种格式转换为另一种格式,以满足不同的分析需求。掌握这些函数的使用,将大大提高我们处理和分析数据的效率。
|
3月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
4月前
|
数据采集 机器学习/深度学习 数据挖掘
R语言数据清洗:高效处理缺失值与重复数据的策略
【8月更文挑战第29天】处理缺失值和重复数据是数据清洗中的基础而重要的步骤。在R语言中,我们拥有多种工具和方法来有效地应对这些问题。通过识别、删除或插补缺失值,以及删除重复数据,我们可以提高数据集的质量和可靠性,为后续的数据分析和建模工作打下坚实的基础。 需要注意的是,处理缺失值和重复数据时,我们应根据实际情况和数据特性选择合适的方法,并在处理过程中保持谨慎,以避免引入新的偏差或错误。
|
4月前
|
数据处理
R语言数据合并:掌握`merge`与`dplyr`中`join`的巧妙技巧
【8月更文挑战第29天】如果你已经在使用`dplyr`进行数据处理,那么推荐使用`dplyr::join`进行数据合并,因为它与`dplyr`的其他函数(如`filter()`、`select()`、`mutate()`等)无缝集成,能够提供更加流畅和一致的数据处理体验。如果你的代码中尚未使用`dplyr`,但想要尝试,那么`dplyr::join`将是一个很好的起点。
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
58 3
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
7月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为