基于阿里云平台的人力资源流动大数据分析(二)

简介: 在这一部分,我们将依托于阿里云的MaxCompute和PAI平台,对人力资源流动数据进行数据清洗和数据探查。

在项目的这一部分,我们首先将数据导入阿里云MaxCompute平台,然后我依托于阿里云MaxCompute平台及PAI平台,对人力资源流动数据进行数据清洗和数据探查。
在MaxCompute中建表代码如下:
DROP TABLE IF EXISTS hr_analytics ;
CREATE TABLE IF NOT EXISTS hr_analytics
(
satisfaction_level DOUBLE
,last_evaluation DOUBLE
,number_project BIGINT
,average_montly_hours BIGINT
,time_spend_company BIGINT
,Work_accident BIGINT
,left1 BIGINT
,promotion_last_5years BIGINT
,position STRING
,salary_level STRING
)
;

然后,进行数据的缺失值处理,检查各个变量的空值数量:
SELECT sum(CASE WHEN satisfaction_level IS NULL THEN 1 ELSE 0 END) AS satisfaction_level
,sum(CASE WHEN last_evaluation IS NULL THEN 1 ELSE 0 END) AS last_evaluation
,sum(CASE WHEN number_project IS NULL THEN 1 ELSE 0 END) AS number_project
,sum(CASE WHEN average_montly_hours IS NULL THEN 1 ELSE 0 END) AS average_montly_hours
,sum(CASE WHEN time_spend_company IS NULL THEN 1 ELSE 0 END) AS time_spend_company
,sum(CASE WHEN work_accident IS NULL THEN 1 ELSE 0 END) AS work_accident
,sum(CASE WHEN left1 IS NULL THEN 1 ELSE 0 END) AS left1
,sum(CASE WHEN promotion_last_5years IS NULL THEN 1 ELSE 0 END) AS promotion_last_5years
,sum(CASE WHEN position IS NULL THEN 1 ELSE 0 END) AS position
,sum(CASE WHEN salary_level IS NULL THEN 1 ELSE 0 END) AS salary_level
FROM hr_analytics
;
检查发现,各项缺失值均为0,即无缺失值存在。

再检查数据的离群值。计算满意度,最近一次评价,参与项目数量,平均工作时间,在职时间,工伤次数的均值及标准差:
SELECT
AVG(satisfaction_level ) AS avg_satisfaction_level
,STDDEV(satisfaction_level ) AS std_satisfaction_level
,AVG(last_evaluation ) AS avg_last_evaluation
,STDDEV(last_evaluation ) AS std_last_evaluation
,AVG(number_project ) AS avg_number_project
,STDDEV(number_project ) AS std_number_project
,AVG(average_montly_hours)AS avg_average_montly_hours
,STDDEV(average_montly_hours ) AS std_average_montly_hours
,AVG(time_spend_company )AS avg_time_spend_company
,STDDEV(time_spend_company ) AS std_time_spend_company
,AVG(work_accident)AS avg_work_accident
,STDDEV(work_accident ) AS std_work_accident
FROM hr_analytics
;

然后利用3σ准则计算离群区间:(μ-3σ,μ+3σ),发现只有time_spend_company 含有离群值,离群值个数为376,离群率为0.4%。根据实际情况,公司员工在职时间的离群数量不多。可能因为突发情况,导致的在时间过长,本实验的目的为预测离职情况,而在职时间过长或过短更有可能影响离职,故不考虑剔除或替换。

然后利用PAI平台进行线性关系检测,得到决定系数R2为0.01,极为接近0,拟合优度很低。再绘制残差图,得到图形如下:
image.png

如图所示,图内数值随机分布 说明数据是线性的,即满意度和最后一次评价间有线性关系。

目录
相关文章
|
21天前
|
数据可视化 搜索推荐 大数据
基于python大数据的北京旅游可视化及分析系统
本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。
|
3天前
|
存储 SQL 分布式计算
终于!大数据分析不用再“又要快又要省钱”二选一了!Dataphin新功能太香了!
Dataphin推出查询加速新功能,支持用StarRocks等引擎直连MaxCompute或Hadoop查原始数据,无需同步、秒级响应。数据只存一份,省成本、提效率,权限统一管理,打破“又要快又要省”的不可能三角,助力企业实现分析自由。
80 49
|
8天前
|
数据采集 数据可视化 关系型数据库
基于python大数据的电影数据可视化分析系统
电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。
|
20天前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
114 1
|
24天前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
|
17天前
|
数据可视化 大数据 数据挖掘
基于python大数据的招聘数据可视化分析系统
本系统基于Python开发,整合多渠道招聘数据,利用数据分析与可视化技术,助力企业高效决策。核心功能包括数据采集、智能分析、可视化展示及权限管理,提升招聘效率与人才管理水平,推动人力资源管理数字化转型。
|
20天前
|
机器学习/深度学习 搜索推荐 算法
基于python大数据的口红商品分析与推荐系统
本研究基于Python大数据技术,构建口红商品分析与推荐系统,旨在解决口红市场产品同质化与消费者选择困难问题。通过分析颜色、质地、价格等多维度数据及用户行为,实现个性化推荐,提升购物体验与品牌营销效率,推动美妆行业数字化转型,具有重要现实意义与市场价值。
|
1月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
63 0
|
2月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
84 4
|
2月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
185 3

热门文章

最新文章