基于阿里云平台的大数据教学案例 —— PHP岗位数据分析

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 分析全国各个地区php岗位工资之间的关系,为实习生、应届生、以及正在找工作的程序员提供便利。

一、实验题目
基于所学的大数据处理知识,结合阿里云大数据相关产品,分组完成一个大数据分析项目,数据集可以使用开源数据集或自行爬取,最终完成一个完整的实验报告

二、实验目的
分析全国各个地区php岗位工资之间的关系,为实习生、应届生、以及正在找工作的程序员提供便利。

三、实验难点
在阿里云产品中的sql语句与Mysql并不兼容,无法建立varchar类型的字段,也无法用中文作为字段显示的名称,在处理PAI的预测时,没有相对应的模板,并且对于预测值的选择上比较难以抉择,数据量较大,在PAI的运行流程中需要长时间的等待。
四、实验过程
数据集的描述:共12431条数据
image.png
image.png
DataIDE:
代码:

CREATE TABLE IF NOT EXISTS php
(
work STRING COMMENT '职位名称',
company STRING COMMENT '公司名称',
min STRING COMMENT '最低工资',
max STRING COMMENT '最高工资',
city STRING COMMENT '地点',
type STRING COMMENT '类别'
) ;

将数据上传到阿里云大数据开发平台(Data IDE)
image.png
表的建立
image.png
字段映射
image.png

选择节点
image.png

节点显示
Maxcompute:
利用maxcompute进行统计计算
首先将搜集好的数据按字段上传到t_php表中
image.png

统计各城市的平均薪资并按降序排列:
代码:

SELECT
    city,round(avg(min+max)/2,2)
AS
    mid
FROM
    t_php
GROUP BY
    city
ORDER BY
    mid DESC

image.png

平均薪资前十名城市的可视化柱状图:
image.png

统计各城市的岗位数量并按降序排列:
代码:

SELECT
    city,count(city)
AS
    sum
FROM
    t_php
GROUP BY
    city
ORDER BY
    sum DESC

image.png

各城市的岗位数量降序排列的可视化柱状图:

image.png

统计自定义最高工资区间的岗位数量:
代码:

SELECT
COUNT(CASE WHEN max BETWEEN 0 AND 6000 THEN max END) AS '0k_6k',
COUNT(CASE WHEN max BETWEEN 6000 AND 12000 THEN max END) AS '6k_12k',
COUNT(CASE WHEN max BETWEEN 12000 AND 48000 THEN max END) AS '12k~48k',
COUNT(CASE WHEN max BETWEEN 48000 AND 100000 THEN max END) AS '48k~100k',
COUNT(CASE WHEN max BETWEEN 100000 AND 500000 THEN max END) AS '100k~500k'
FROM
t_php

image.png

自定义最高工资区间的岗位数量可视化饼状图:
image.png

PAI:
代码:

SELECT city, 
(case when min<3000 then 1 when max<6000 then 1 else 0 end) as lowest, 
(case when min<6000 then 1 when max<10000 then 1 else 0 end) as low,
 (case when min>10000 then 1 when max>15000 then 1 else 0 end) as high, 
(case when max>20000 then 1 when min>15000 then 1 else 0 end) as highest 
FROM ${t1};

利用机器学习进行预测分析
归一化数据探查
image.png

预测数据探查
image.png

混淆矩阵
image.png

比例矩阵
image.png

统计信息
image.png

QuickBI:
通过quickBI展示可视化成果
image.png

上图显示了全国各个地点与php最高工资的关系,可以更直观的看出各个地区给出的最高薪资是多少
image.png

上图显示了全国各个地点与php最低工资的关系,可以更直观的看出各个地区给出的最低薪资是多少
image.png

上图显示出了各个公司的php岗位数量的关系
image.png
image.png

上图可以看出php岗位最低工资在各个地区的占比
image.png

上图显示出了全国各个地区php的最高工资分布,可以给所有php开发师提供帮助

结论:阿里的各种产品可以为各行各业提供非常有价值的帮助,例如这次分析,无论是对php实习生应届生也好,还是没有工作的php开发工程师也好,都可以提供很大的帮助。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
7天前
|
关系型数据库 MySQL PHP
2025 游戏试玩打码平台PHP源码
2025 游戏试玩打码平台PHP源码
11 0
2025 游戏试玩打码平台PHP源码
|
29天前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
217 92
|
2月前
|
机器学习/深度学习 数据采集 DataWorks
数据分析经典案例重现:使用DataWorks Notebook 实现Kaggle竞赛之房价预测,成为数据分析大神!
Python是目前当之无愧的数据分析第一语言,大量的数据科学家使用Python来完成各种各样的数据科学任务。本文以Kaggle竞赛中的房价预测为例,结合DataWorks Notebook,完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,主要Python工具是Pandas和SKLearn。本文中仅仅使用了线性回归这一最基本的机器学习模型,读者可以自行尝试其他更加复杂模型,比如随机森林、支持向量机、XGBoost等。
|
2月前
|
人工智能 安全 Linux
|
3月前
|
人工智能 安全 Linux
|
3月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
3月前
|
Unix Linux PHP
PHP在Web开发中的平台独立性优势###
本文探讨了PHP的跨平台特性,阐述其作为服务器端脚本语言如何在不同操作系统上无缝运行,以及这一特性为开发者和组织带来的便利性和成本效益。 ###
|
3月前
|
缓存 安全 JavaScript
PHP在Web开发中的平台优势与未来趋势###
【10月更文挑战第21天】 PHP,Hypertext Preprocessor,凭借其灵活性、广泛应用和强大社区支持,已成为Web开发的常青树。本文探讨了PHP的发展历程、核心优势、最佳实践案例及面临的挑战与机遇,揭示其在现代Web开发中不可替代的角色,以及如何适应未来技术趋势,持续引领Web创新。 ###
66 2
|
4月前
|
设计模式 PHP 开发者
PHP在Web开发中的平台优势与未来展望###
【10月更文挑战第17天】 本文探讨了PHP作为服务器端脚本语言在Web开发领域的持久魅力与独特优势,从其易于学习、成本效益高、强大社区支持到灵活的框架生态,展现了PHP为何能在全球网站开发中占据重要地位。同时,文章也展望了PHP在未来技术趋势下,如云计算、微服务架构中的发展潜力,强调持续创新对于保持其竞争力的重要性。 ###
42 2
|
4月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
331 0

热门文章

最新文章