基于阿里云平台的大数据教学案例 —— PHP岗位数据分析

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 分析全国各个地区php岗位工资之间的关系,为实习生、应届生、以及正在找工作的程序员提供便利。

一、实验题目
基于所学的大数据处理知识,结合阿里云大数据相关产品,分组完成一个大数据分析项目,数据集可以使用开源数据集或自行爬取,最终完成一个完整的实验报告

二、实验目的
分析全国各个地区php岗位工资之间的关系,为实习生、应届生、以及正在找工作的程序员提供便利。

三、实验难点
在阿里云产品中的sql语句与Mysql并不兼容,无法建立varchar类型的字段,也无法用中文作为字段显示的名称,在处理PAI的预测时,没有相对应的模板,并且对于预测值的选择上比较难以抉择,数据量较大,在PAI的运行流程中需要长时间的等待。
四、实验过程
数据集的描述:共12431条数据
image.png
image.png
DataIDE:
代码:

CREATE TABLE IF NOT EXISTS php
(
work STRING COMMENT '职位名称',
company STRING COMMENT '公司名称',
min STRING COMMENT '最低工资',
max STRING COMMENT '最高工资',
city STRING COMMENT '地点',
type STRING COMMENT '类别'
) ;

将数据上传到阿里云大数据开发平台(Data IDE)
image.png
表的建立
image.png
字段映射
image.png

选择节点
image.png

节点显示
Maxcompute:
利用maxcompute进行统计计算
首先将搜集好的数据按字段上传到t_php表中
image.png

统计各城市的平均薪资并按降序排列:
代码:

SELECT
    city,round(avg(min+max)/2,2)
AS
    mid
FROM
    t_php
GROUP BY
    city
ORDER BY
    mid DESC

image.png

平均薪资前十名城市的可视化柱状图:
image.png

统计各城市的岗位数量并按降序排列:
代码:

SELECT
    city,count(city)
AS
    sum
FROM
    t_php
GROUP BY
    city
ORDER BY
    sum DESC

image.png

各城市的岗位数量降序排列的可视化柱状图:

image.png

统计自定义最高工资区间的岗位数量:
代码:

SELECT
COUNT(CASE WHEN max BETWEEN 0 AND 6000 THEN max END) AS '0k_6k',
COUNT(CASE WHEN max BETWEEN 6000 AND 12000 THEN max END) AS '6k_12k',
COUNT(CASE WHEN max BETWEEN 12000 AND 48000 THEN max END) AS '12k~48k',
COUNT(CASE WHEN max BETWEEN 48000 AND 100000 THEN max END) AS '48k~100k',
COUNT(CASE WHEN max BETWEEN 100000 AND 500000 THEN max END) AS '100k~500k'
FROM
t_php

image.png

自定义最高工资区间的岗位数量可视化饼状图:
image.png

PAI:
代码:

SELECT city, 
(case when min<3000 then 1 when max<6000 then 1 else 0 end) as lowest, 
(case when min<6000 then 1 when max<10000 then 1 else 0 end) as low,
 (case when min>10000 then 1 when max>15000 then 1 else 0 end) as high, 
(case when max>20000 then 1 when min>15000 then 1 else 0 end) as highest 
FROM ${t1};

利用机器学习进行预测分析
归一化数据探查
image.png

预测数据探查
image.png

混淆矩阵
image.png

比例矩阵
image.png

统计信息
image.png

QuickBI:
通过quickBI展示可视化成果
image.png

上图显示了全国各个地点与php最高工资的关系,可以更直观的看出各个地区给出的最高薪资是多少
image.png

上图显示了全国各个地点与php最低工资的关系,可以更直观的看出各个地区给出的最低薪资是多少
image.png

上图显示出了各个公司的php岗位数量的关系
image.png
image.png

上图可以看出php岗位最低工资在各个地区的占比
image.png

上图显示出了全国各个地区php的最高工资分布,可以给所有php开发师提供帮助

结论:阿里的各种产品可以为各行各业提供非常有价值的帮助,例如这次分析,无论是对php实习生应届生也好,还是没有工作的php开发工程师也好,都可以提供很大的帮助。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
4月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据存储计算服务:MaxCompute
阿里云MaxCompute是快速、全托管的TB/PB级数据仓库解决方案,提供海量数据存储与计算服务。支持多种计算模型,适用于大规模离线数据分析,具备高安全性、低成本、易用性强等特点,助力企业高效处理大数据。
187 0
|
4月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
312 0
|
2月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
214 1
|
2月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
177 1
|
4月前
|
人工智能 分布式计算 DataWorks
多模态数据处理新趋势:阿里云ODPS技术栈深度解析与未来展望
阿里云ODPS技术栈通过MaxCompute、Object Table与MaxFrame等核心组件,实现了多模态数据的高效处理与智能分析。该架构支持结构化与非结构化数据的统一管理,并深度融合AI能力,显著降低了分布式计算门槛,推动企业数字化转型。未来,其在智慧城市、数字医疗、智能制造等领域具有广泛应用前景。
414 6
多模态数据处理新趋势:阿里云ODPS技术栈深度解析与未来展望
|
存储 机器学习/深度学习 人工智能
阿里云ODPS:在AI浪潮之巅,铸就下一代智能数据根基
在智能爆炸时代,ODPS正从传统数据平台进化为“AI操作系统”。面对千亿参数模型与实时决策挑战,ODPS通过流批一体架构、多模态处理、智能资源调度等技术创新,大幅提升效率与智能化水平。从自动驾驶到医疗联合建模,从数字孪生到低代码AI开发,ODPS正重塑企业数据生产力,助力全球客户在算力洪流中抢占先机。
146 0

热门文章

最新文章