基于阿里云平台的大数据教学案例 —— PHP岗位数据分析

简介: 分析全国各个地区php岗位工资之间的关系,为实习生、应届生、以及正在找工作的程序员提供便利。

一、实验题目
基于所学的大数据处理知识,结合阿里云大数据相关产品,分组完成一个大数据分析项目,数据集可以使用开源数据集或自行爬取,最终完成一个完整的实验报告

二、实验目的
分析全国各个地区php岗位工资之间的关系,为实习生、应届生、以及正在找工作的程序员提供便利。

三、实验难点
在阿里云产品中的sql语句与Mysql并不兼容,无法建立varchar类型的字段,也无法用中文作为字段显示的名称,在处理PAI的预测时,没有相对应的模板,并且对于预测值的选择上比较难以抉择,数据量较大,在PAI的运行流程中需要长时间的等待。
四、实验过程
数据集的描述:共12431条数据
image.png
image.png
DataIDE:
代码:

CREATE TABLE IF NOT EXISTS php
(
work STRING COMMENT '职位名称',
company STRING COMMENT '公司名称',
min STRING COMMENT '最低工资',
max STRING COMMENT '最高工资',
city STRING COMMENT '地点',
type STRING COMMENT '类别'
) ;

将数据上传到阿里云大数据开发平台(Data IDE)
image.png
表的建立
image.png
字段映射
image.png

选择节点
image.png

节点显示
Maxcompute:
利用maxcompute进行统计计算
首先将搜集好的数据按字段上传到t_php表中
image.png

统计各城市的平均薪资并按降序排列:
代码:

SELECT
    city,round(avg(min+max)/2,2)
AS
    mid
FROM
    t_php
GROUP BY
    city
ORDER BY
    mid DESC

image.png

平均薪资前十名城市的可视化柱状图:
image.png

统计各城市的岗位数量并按降序排列:
代码:

SELECT
    city,count(city)
AS
    sum
FROM
    t_php
GROUP BY
    city
ORDER BY
    sum DESC

image.png

各城市的岗位数量降序排列的可视化柱状图:

image.png

统计自定义最高工资区间的岗位数量:
代码:

SELECT
COUNT(CASE WHEN max BETWEEN 0 AND 6000 THEN max END) AS '0k_6k',
COUNT(CASE WHEN max BETWEEN 6000 AND 12000 THEN max END) AS '6k_12k',
COUNT(CASE WHEN max BETWEEN 12000 AND 48000 THEN max END) AS '12k~48k',
COUNT(CASE WHEN max BETWEEN 48000 AND 100000 THEN max END) AS '48k~100k',
COUNT(CASE WHEN max BETWEEN 100000 AND 500000 THEN max END) AS '100k~500k'
FROM
t_php

image.png

自定义最高工资区间的岗位数量可视化饼状图:
image.png

PAI:
代码:

SELECT city, 
(case when min<3000 then 1 when max<6000 then 1 else 0 end) as lowest, 
(case when min<6000 then 1 when max<10000 then 1 else 0 end) as low,
 (case when min>10000 then 1 when max>15000 then 1 else 0 end) as high, 
(case when max>20000 then 1 when min>15000 then 1 else 0 end) as highest 
FROM ${t1};

利用机器学习进行预测分析
归一化数据探查
image.png

预测数据探查
image.png

混淆矩阵
image.png

比例矩阵
image.png

统计信息
image.png

QuickBI:
通过quickBI展示可视化成果
image.png

上图显示了全国各个地点与php最高工资的关系,可以更直观的看出各个地区给出的最高薪资是多少
image.png

上图显示了全国各个地点与php最低工资的关系,可以更直观的看出各个地区给出的最低薪资是多少
image.png

上图显示出了各个公司的php岗位数量的关系
image.png
image.png

上图可以看出php岗位最低工资在各个地区的占比
image.png

上图显示出了全国各个地区php的最高工资分布,可以给所有php开发师提供帮助

结论:阿里的各种产品可以为各行各业提供非常有价值的帮助,例如这次分析,无论是对php实习生应届生也好,还是没有工作的php开发工程师也好,都可以提供很大的帮助。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
25天前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
15 2
|
2月前
|
数据可视化 架构师 数据挖掘
数据分析案例-数据科学相关岗位薪资可视化分析
数据分析案例-数据科学相关岗位薪资可视化分析
53 0
|
2月前
|
数据采集 数据可视化 数据挖掘
数据分析案例-BI工程师招聘岗位信息可视化分析
数据分析案例-BI工程师招聘岗位信息可视化分析
59 0
|
2月前
|
SQL 分布式计算 数据可视化
数据分析案例-数据分析师岗位招聘信息可视化
数据分析案例-数据分析师岗位招聘信息可视化
62 0
|
1月前
|
算法 大数据 数据挖掘
python数据分析——大数据伦理风险分析
大数据伦理风险分析在当前数字化快速发展的背景下显得尤为重要。随着大数据技术的广泛应用,企业、政府以及个人都在不断地产生、收集和分析海量数据。然而,这些数据的利用也带来了诸多伦理风险,如隐私泄露、数据滥用、算法偏见等。因此,对大数据伦理风险进行深入分析,并采取相应的防范措施,对于保障数据安全、维护社会公平正义具有重要意义。
51 0
|
1月前
|
存储 大数据 数据挖掘
python数据分析——大数据和云计算
大数据和云计算作为当代信息技术的两大核心驱动力,正在以前所未有的速度改变着我们的生活、工作和思维方式。它们不仅为各行各业的创新提供了强大的技术支持,更是推动了整个社会的数字化转型。 从大数据的角度来看,它的核心价值在于通过对海量数据的收集、存储、分析和挖掘,发现其中的关联性和趋势,从而为决策提供更为科学、精准的依据。无论是商业领域的市场预测、消费者行为分析,还是公共服务领域的城市规划、交通管理,大数据都发挥着不可或缺的作用。同时,随着物联网、传感器等技术的普及,大数据的来源和种类也在不断扩展,这使得我们能够更全面地认识世界,把握规律。
47 0
|
2月前
|
存储 数据可视化 JavaScript
基于Echarts构建大数据招聘岗位数据可视化大屏
基于Echarts构建大数据招聘岗位数据可视化大屏
59 0
|
4月前
|
数据采集 数据可视化 数据挖掘
【大数据实训】基于当当网图书信息的数据分析与可视化(八)
【大数据实训】基于当当网图书信息的数据分析与可视化(八)
83 0
|
4月前
|
数据采集 分布式计算 数据可视化
【大数据实训】基于赶集网租房信息的数据分析与可视化(七)
【大数据实训】基于赶集网租房信息的数据分析与可视化(七)
78 0
|
1月前
|
Ubuntu JavaScript 关系型数据库
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
在阿里云Ubuntu 20.04服务器上部署Ghost博客的步骤包括创建新用户、安装Nginx、MySQL和Node.js 18.x。首先,通过`adduser`命令创建非root用户,然后安装Nginx和MySQL。接着,设置Node.js环境,下载Nodesource GPG密钥并安装Node.js 18.x。之后,使用`npm`安装Ghost-CLI,创建Ghost安装目录并进行安装。配置过程中需提供博客URL、数据库连接信息等。最后,测试访问前台首页和后台管理页面。确保DNS设置正确,并根据提示完成Ghost博客的配置。
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客