基于阿里云平台的大数据教学案例 —— 人工智能岗位数据分析

简介: 基于所学的大数据处理知识,结合阿里云大数据相关产品,完成一个大数据分析项目,能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化、能够基于分析结构构建可视化门户或可视化大屏、分析案例有实用价值并能够形成有效结论、能够将开源技术与阿里云产品结合,综合利用提升开发效率,降低成本,最后完成数据分析报告和结果展示

一、 实验题目

基于阿里云大数据平台的综合数据分析实践

二、 实验目的

基于所学的大数据处理知识,结合阿里云大数据相关产品,完成一个大数据分析项目,能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化、能够基于分析结构构建可视化门户或可视化大屏、分析案例有实用价值并能够形成有效结论、能够将开源技术与阿里云产品结合,综合利用提升开发效率,降低成本,最后完成数据分析报告和结果展示

三、实验难点
数据分析需要有使用价值,模型调优比较麻烦

四、实验过程(截图)

  1. 建表
    image.png
  2. 数据分析与可视化
    1) 不同地点的平均薪资

image.png
image.png

2) 每个岗位的平均工资

image.png
image.png

3)列出最低薪资大于30000的各种工作

image.png
image.png

4) 列出平均薪资前十名的职位名称

image.png
image.png

5) 列出每个城市有多少岗位

image.png
image.png

6) 列出每个城市有多少家公司在招聘

image.png
image.png

7) 每个城市的平均最低薪资是多少

image.png
image.png

8) 每个城市的平均工资排名
image.png
image.png

9) 每个城市的平均最高工资是多少

image.png
image.png

  1. 机器学习建模与调优

预测北京岗位中的薪资变化
image.png
image.png
image.png
image.png

算法的超参数调优
L2

image.png

L1
image.png

NONE

image.png

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
11月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
|
分布式计算 监控 大数据
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
358 0
|
消息中间件 关系型数据库 MySQL
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
953 0
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
434 0
|
关系型数据库 MySQL 大数据
大数据新视界--大数据大厂之MySQL 数据库课程设计:MySQL 数据库 SQL 语句调优的进阶策略与实际案例(2-2)
本文延续前篇,深入探讨 MySQL 数据库 SQL 语句调优进阶策略。包括优化索引使用,介绍多种索引类型及避免索引失效等;调整数据库参数,如缓冲池、连接数和日志参数;还有分区表、垂直拆分等其他优化方法。通过实际案例分析展示调优效果。回顾与数据库课程设计相关文章,强调全面认识 MySQL 数据库重要性。为读者提供综合调优指导,确保数据库高效运行。
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
300 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
313 3
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
340 1
|
消息中间件 druid 大数据
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
309 2
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
319 1