R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析

简介: R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析

数据显示2019年全国城镇私营单位就业人员年平均工资为53604元,比上年增长8.1%,而2019年全国城镇非私营单位就业人员年平均工资为90501元,名义增长率9.8%点击文末“阅读原文”了解更多

相关视频

image.png

实际上,一直以来城镇私营单位就业人员年平均工资都要高于非私营单位,并且增长率也高与非私营单位,主要原因是非私营单位包括机关事业单位、国企、上市公司等。相对效益比较好,自然平均工资水平要高于私营企业。但是,这就会导致私营单位与非私营单位的平均工资差距持续扩大,富的越富,穷的越穷,公私单位工资分歧如果继续扩大,私营企业的竞争力将受到影响,对中国的科技创新和社会进步将构成阻碍。

我们帮助客户通过从不同行业,不同地区的私营单位就业人员平均工资的分析,给予具有针对性的政策建议,正确的引导私营企业向着快速发展的方向前进,这既是现实需要,也是共同富裕理念的需要。


数据准备

本文数据来自国家统计局中国统计年鉴,选自行业分城镇私营单位就业人员平均工资,相关经济指标有农、林、牧、渔业,制造业,电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,信息传输、软件和信息技术服务业,金融业,房地产业,租赁和商务服务业,科学研究和技术服务业,水利、环境和公共设施管理业,居民服务、修理和其他服务业,教育,卫生和社会工作,文化、体育和娱乐业这17个经济指标。地区按省份划分,由于西藏地区数据具有较大缺失,因此选取了除台湾省以外的22个省份,4个直辖市,以及除西藏自治区以外的4个自治区,共30个地区的数据进行研究。

 

相关性分析

 

利用R软件绘制出原有变量的的相关系数饼图

d882ca98909582af682955230a7b77bb.png

从图中可以看出相关系数矩阵中大多数变量之间的相关系数取值较大,且从热力图的颜色可以判断变量间均为正相关关系,大部分变量间相关程度较高,满足进行主成分分析的前提。

 


点击标题查阅往期内容


R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标

60bf2b04757d428a5f9c10d4047b386f.png

确定主成分个数

 

因此利用R语言中eigen()函数输出特征值,筛选出特征值大于1的主成分,从而计算贡献率与累计贡献率。

序号 特征值 贡献率% 累计贡献率%
1 13.192309813 77.6 77.6
2 1.035339791 6.1 83.7

其次,也可以通过scree()函数利用Cattell碎石检验绘制碎石图形,表明对于这组数据的描述只需要两个主成分即可。

9bed91fbac2d19300821cd75aba6d20b.png

因子分析

 

利用R语言principal()函数进行主成分分析,输出如下表结果。

33126ab7cab54e239c00105f69899fdb.png

可以看出各个变量在第一主成分的因子载荷都很大,因此需要经过因子旋转才能对因子做相关的命名与解释,以便对实际问题进行分析。

本文采用的方法是方差最大的正交旋转法,使旋转后的因子载荷阵中的每一列元素尽可能地拉开距离,即向0或1两极分化。

dc8dbc0d06eff5553539fcda57828a9e.png

利用fa.diagram()函数将经过最大方差的因子旋转后主成分结果进行展示,如下图。

a88822e9abc7747819a5bfb5295fc6c4.png

由结果展示可以看出,第一公因子的主因子的这些行业都是一些现代化产业,也就是随着科学技术的高速发展和人民生活水平的日益提高逐渐发展起来的,因此可以命名为新型行业;第二公因子保证了人民的基础生活,因此可以命名为基础行业

132d509fbe21e487421b76a555148f06.png

对于第一主成分来说,因子得分最高的城市为北京市,为4.27,远高于其他地区,说明北京市的新型行业发展较为发达,起到引领作用,得分最低的是青海地区,可见新型产业并不是青海省主要发展产业。对于第二主成分来说,因子得分最高的地区为山东省,为2.98,说明山东省的基础行业发展水平较高于其他地区,而基础产业发展最不好的地区为山西省。

确定聚类个数

展示采用Ward最小方差法得出聚类结果。根据聚类树形图,可以初步设置聚类别的数目为4。

b16e1e7abebbe442f1a974cb3afe01dc.png

为了进一步确定聚类数目,绘制层次聚类碎石图。

0ff6602da5779d4f04c671eb55326e67.png

层次聚类碎石图也表明聚类数目为4较为合适。

 

K-means聚类

 

利用R软件输出每个类别的类数目与聚类中心,得到下表。

类别 类数目 新型行业 基础行业
1 1 4.2732372 -0.2118294  
2 7 0.3510077 1.3900181
3 8 -0.6312877 0.2117078
4 4 -0.1199993 -0.8008542

各类包含的具体地区如下图

39abf385b29508f8b47a3930f26ff438.png

可以看出,北京作为第一类城市的代表,新型行业发展远远高于其他地区,不管是金融业,教育,房地产业还是科学研究和技术服务业、信息传输,软件和信息技术服务业等,都占据着领导地位。

第二类地区基础行业最为雄厚,有些地区属于新一线城市,具有较大的资源优势和相对好的人才质量,交通运输、仓储和邮政业,批发与零售,住宿与餐饮业,建筑业都较为发达。

第三类地区位于内陆地区,部分地域广阔,资源丰富,基础行业发展状况尚可,但新型行业发展欠缺,缺乏高新技术的支持,各地区要重视对科技的投入,完善创新机制,发挥人才优势。

第四类地区既没有资源优势也没有人才优势,因此新型行业和基础行业都处于有待发展的状态。

类别 地区
第一类地区 北京
第二类地区 天津、上海、江苏、浙江、山东、广东、重庆
第三类地区 河北、内蒙古、福建、四川、云南、青海、宁夏、新疆
第四类地区 山西、辽宁、吉林、黑龙江、安徽、江西、河南、湖北、湖南、广西、海南、贵州、陕西、甘肃

相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
50 3
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
7月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
4月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
4月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
82 3
|
7月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)