基于阿里云平台的大数据教学案例 —— PHP岗位数据分析

简介: 分析全国各个地区php岗位工资之间的关系,为实习生、应届生、以及正在找工作的程序员提供便利。

一、实验题目
基于所学的大数据处理知识,结合阿里云大数据相关产品,分组完成一个大数据分析项目,数据集可以使用开源数据集或自行爬取,最终完成一个完整的实验报告

二、实验目的
分析全国各个地区php岗位工资之间的关系,为实习生、应届生、以及正在找工作的程序员提供便利。

三、实验难点
在阿里云产品中的sql语句与Mysql并不兼容,无法建立varchar类型的字段,也无法用中文作为字段显示的名称,在处理PAI的预测时,没有相对应的模板,并且对于预测值的选择上比较难以抉择,数据量较大,在PAI的运行流程中需要长时间的等待。
四、实验过程
数据集的描述:共12431条数据
image.png
image.png
DataIDE:
代码:

CREATE TABLE IF NOT EXISTS php
(
work STRING COMMENT '职位名称',
company STRING COMMENT '公司名称',
min STRING COMMENT '最低工资',
max STRING COMMENT '最高工资',
city STRING COMMENT '地点',
type STRING COMMENT '类别'
) ;

将数据上传到阿里云大数据开发平台(Data IDE)
image.png
表的建立
image.png
字段映射
image.png

选择节点
image.png

节点显示
Maxcompute:
利用maxcompute进行统计计算
首先将搜集好的数据按字段上传到t_php表中
image.png

统计各城市的平均薪资并按降序排列:
代码:

SELECT
    city,round(avg(min+max)/2,2)
AS
    mid
FROM
    t_php
GROUP BY
    city
ORDER BY
    mid DESC

image.png

平均薪资前十名城市的可视化柱状图:
image.png

统计各城市的岗位数量并按降序排列:
代码:

SELECT
    city,count(city)
AS
    sum
FROM
    t_php
GROUP BY
    city
ORDER BY
    sum DESC

image.png

各城市的岗位数量降序排列的可视化柱状图:

image.png

统计自定义最高工资区间的岗位数量:
代码:

SELECT
COUNT(CASE WHEN max BETWEEN 0 AND 6000 THEN max END) AS '0k_6k',
COUNT(CASE WHEN max BETWEEN 6000 AND 12000 THEN max END) AS '6k_12k',
COUNT(CASE WHEN max BETWEEN 12000 AND 48000 THEN max END) AS '12k~48k',
COUNT(CASE WHEN max BETWEEN 48000 AND 100000 THEN max END) AS '48k~100k',
COUNT(CASE WHEN max BETWEEN 100000 AND 500000 THEN max END) AS '100k~500k'
FROM
t_php

image.png

自定义最高工资区间的岗位数量可视化饼状图:
image.png

PAI:
代码:

SELECT city, 
(case when min<3000 then 1 when max<6000 then 1 else 0 end) as lowest, 
(case when min<6000 then 1 when max<10000 then 1 else 0 end) as low,
 (case when min>10000 then 1 when max>15000 then 1 else 0 end) as high, 
(case when max>20000 then 1 when min>15000 then 1 else 0 end) as highest 
FROM ${t1};

利用机器学习进行预测分析
归一化数据探查
image.png

预测数据探查
image.png

混淆矩阵
image.png

比例矩阵
image.png

统计信息
image.png

QuickBI:
通过quickBI展示可视化成果
image.png

上图显示了全国各个地点与php最高工资的关系,可以更直观的看出各个地区给出的最高薪资是多少
image.png

上图显示了全国各个地点与php最低工资的关系,可以更直观的看出各个地区给出的最低薪资是多少
image.png

上图显示出了各个公司的php岗位数量的关系
image.png
image.png

上图可以看出php岗位最低工资在各个地区的占比
image.png

上图显示出了全国各个地区php的最高工资分布,可以给所有php开发师提供帮助

结论:阿里的各种产品可以为各行各业提供非常有价值的帮助,例如这次分析,无论是对php实习生应届生也好,还是没有工作的php开发工程师也好,都可以提供很大的帮助。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
5月前
|
数据可视化 关系型数据库 MySQL
基于python大数据的的海洋气象数据可视化平台
针对海洋气象数据量大、维度多的挑战,设计基于ECharts的可视化平台,结合Python、Django与MySQL,实现数据高效展示与交互分析,提升科研与决策效率。
|
8月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
1106 0
|
5月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
405 0
|
8月前
|
分布式计算 算法 大数据
大数据时代的智能研发平台需求与阿里云DIDE的定位
阿里云DIDE是一站式智能大数据开发与治理平台,致力于解决传统大数据开发中的效率低、协同难等问题。通过全面整合资源、高度抽象化设计及流程自动化,DIDE显著提升数据处理效率,降低使用门槛,适用于多行业、多场景的数据开发需求,助力企业实现数字化转型与智能化升级。
354 1
|
8月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
|
存储 SQL 大数据
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
1576 1
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
850 2
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
SQL 人工智能 大数据
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【4月重点功能发布】阿里云大数据+ AI 一体化平台
289 0