基于阿里云平台的人力资源流动大数据分析(二)

简介: 在这一部分,我们将依托于阿里云的MaxCompute和PAI平台,对人力资源流动数据进行数据清洗和数据探查。

在项目的这一部分,我们首先将数据导入阿里云MaxCompute平台,然后我依托于阿里云MaxCompute平台及PAI平台,对人力资源流动数据进行数据清洗和数据探查。
在MaxCompute中建表代码如下:
DROP TABLE IF EXISTS hr_analytics ;
CREATE TABLE IF NOT EXISTS hr_analytics
(
satisfaction_level DOUBLE
,last_evaluation DOUBLE
,number_project BIGINT
,average_montly_hours BIGINT
,time_spend_company BIGINT
,Work_accident BIGINT
,left1 BIGINT
,promotion_last_5years BIGINT
,position STRING
,salary_level STRING
)
;

然后,进行数据的缺失值处理,检查各个变量的空值数量:
SELECT sum(CASE WHEN satisfaction_level IS NULL THEN 1 ELSE 0 END) AS satisfaction_level
,sum(CASE WHEN last_evaluation IS NULL THEN 1 ELSE 0 END) AS last_evaluation
,sum(CASE WHEN number_project IS NULL THEN 1 ELSE 0 END) AS number_project
,sum(CASE WHEN average_montly_hours IS NULL THEN 1 ELSE 0 END) AS average_montly_hours
,sum(CASE WHEN time_spend_company IS NULL THEN 1 ELSE 0 END) AS time_spend_company
,sum(CASE WHEN work_accident IS NULL THEN 1 ELSE 0 END) AS work_accident
,sum(CASE WHEN left1 IS NULL THEN 1 ELSE 0 END) AS left1
,sum(CASE WHEN promotion_last_5years IS NULL THEN 1 ELSE 0 END) AS promotion_last_5years
,sum(CASE WHEN position IS NULL THEN 1 ELSE 0 END) AS position
,sum(CASE WHEN salary_level IS NULL THEN 1 ELSE 0 END) AS salary_level
FROM hr_analytics
;
检查发现,各项缺失值均为0,即无缺失值存在。

再检查数据的离群值。计算满意度,最近一次评价,参与项目数量,平均工作时间,在职时间,工伤次数的均值及标准差:
SELECT
AVG(satisfaction_level ) AS avg_satisfaction_level
,STDDEV(satisfaction_level ) AS std_satisfaction_level
,AVG(last_evaluation ) AS avg_last_evaluation
,STDDEV(last_evaluation ) AS std_last_evaluation
,AVG(number_project ) AS avg_number_project
,STDDEV(number_project ) AS std_number_project
,AVG(average_montly_hours)AS avg_average_montly_hours
,STDDEV(average_montly_hours ) AS std_average_montly_hours
,AVG(time_spend_company )AS avg_time_spend_company
,STDDEV(time_spend_company ) AS std_time_spend_company
,AVG(work_accident)AS avg_work_accident
,STDDEV(work_accident ) AS std_work_accident
FROM hr_analytics
;

然后利用3σ准则计算离群区间:(μ-3σ,μ+3σ),发现只有time_spend_company 含有离群值,离群值个数为376,离群率为0.4%。根据实际情况,公司员工在职时间的离群数量不多。可能因为突发情况,导致的在时间过长,本实验的目的为预测离职情况,而在职时间过长或过短更有可能影响离职,故不考虑剔除或替换。

然后利用PAI平台进行线性关系检测,得到决定系数R2为0.01,极为接近0,拟合优度很低。再绘制残差图,得到图形如下:
image.png

如图所示,图内数值随机分布 说明数据是线性的,即满意度和最后一次评价间有线性关系。

目录
相关文章
|
1月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
1月前
|
数据可视化 关系型数据库 MySQL
基于python大数据的的海洋气象数据可视化平台
针对海洋气象数据量大、维度多的挑战,设计基于ECharts的可视化平台,结合Python、Django与MySQL,实现数据高效展示与交互分析,提升科研与决策效率。
|
30天前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
30天前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
1月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
监控 安全 数据可视化
java基于微服务的智慧工地管理云平台SaaS源码 数据大屏端 APP移动端
围绕施工现场人、机、料、法、环、各个环节,“智慧工地”将传统建筑施工与大数据物联网无缝结合集成多个智慧应用子系统,施工数据云端整合分析,提供专业、先进、安全的智慧工地解决方案。
324 1
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
580 0
|
大数据 定位技术
《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (3)
《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (3)
445 0

热门文章

最新文章

下一篇
oss云网关配置