2023年职业院校技能大赛中职组----大数据应用与服务赛项任务书试题

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 2023年职业院校技能大赛中职组----大数据应用与服务赛项任务书试题

一、竞赛内容

本试卷包含数据库系统运维、数据采集与处理、大数据应用开发三个模块,试卷满分100分。

二、竞赛时间

竞赛时间:共计240分钟。

三、竞赛事项要求

1.参赛选手不得携带通信设备等物品进入赛场,严禁在程序及运行结果中任何位置标注竞赛队的任何信息,违反者按作弊处理。

2.请根据大赛所提供的竞赛环境,检查所列的硬件设备、软件清单、材料清单是否齐全,计算机设备是否能正常使用。

3.竞赛结束前,整合各试题的操作过程和结果数据,并提交完整的文档、代码、截图等竞赛结果到指定目录中。

4.竞赛结束时,后台统一关闭答题通道,禁止将比赛所用的所有物品(包括试卷和稿纸)带离赛场。


模块一:数据库系统运维(25分)

任务一:数据库系统搭建(10分)


【任务要求】

本环节需要使用root用户完成相关配置,实现数据库系统MySQL搭建、配置及使用;

【任务需求背景】

在数据量日益增加的环境下,单一部门的数据通常无法满足整个企业的需求。此时需要通过数据库进行整合,将来自各个部门的数据汇总到一个系统中,实现数据的共享,更好的实现信息共享互通。如物资管理、软件项目管理、人事管理等,这些工作都需要建立相应的数据库进行维护,以便更好地管理相关数据。

【具体任务】

1、添加MySQL数据库系统的用户和组,将完整命令截图粘贴到对应答题报告中

2、将MySQL安装包解压到/usr/local路径,将完整命令截图粘贴到对应答题报告中;

3、在/usr/local目录下将解压出来的Mysql包改名为mysql,将完整命令截图粘贴到对应答题报告中;

4、将/usr/local/目录下的mysql文件夹修改为mysql组所拥有权限,将完整命令截图粘贴到对应答题报告中;

5、在/usr/local/mysql目录下(一定要在mysql目录下执行,注意输出的文字,里边有修改root密码和启动mysql的命令),初始化MySQL数据库系统,将完整命令及初始化成功的截图粘贴到对应答题报告中;

6、在usr/local/mysql/目录下,执行对MySQL数据库初始化后服务的启动命令,将完整命令及初始化成功的截图粘贴到对应答题报告中;

7、在usr/local/mysql/目录下,设置MySQL数据库的登录用户root的密码,将完整命令及初始化成功的截图粘贴到对应答题报告中;

8、在usr/local/mysql/目录下,设置MySQL数据库的登录用户root的密码,将完整命令的截图粘贴到对应答题报告中;

9、在usr/local/mysql/目录下,拷贝/usr/local/mysql/support-files/my-medium.cn配置文件到etc目录下,增加或者修改MySQL数据库的最大连接数,保存修改后的配置文件,将完整命令及修改配置后的截图粘贴到对应答题报告中;

10、通过root用户登录MySQL数据库系统,查看mysql库下的所有表,将完整命令及执行命令后的结果的截图粘贴到对应答题报告中;

任务二:房源数据库系统运维(15分)


【任务要求】

本环节需要使用MySQL数据库系统完成关于各城市用户租房信息的建库、建表、数据的增、删、改、查等操作。

【任务需求背景】

为了了解各城市租房的整体情况,以便更好的为客户提供服务。通过对租房信息数据进行分析和可视化,可以获得一些重要的信息,如房源面积、房源价格、房源地段等,这些信息可以帮助我们更好的了解城市租房的整体情况,因此,建立一个房源信息管理系统,并通过MySQL数据库进行管理和维护,是非常必要的。

【具体任务】

1、在Mysql库中,创建一个名为tenantdb的数据库并查看这个数据库,将完整命令及结果截图粘贴到对应答题报告中;

2、在Mysql库中,选择并使用刚才创建的tenantdb数据库,将完整命令及结果截图粘贴到对应答题报告中;

3、在tenantdb数据库中创建一个名为rental_info的数据表,包含字段见下表,指定user_id字段为主键,该字段非空且自增,数据库引擎为InnoDB,默认字符集为utf8,字段类型应符合实际意义。将完整命令及运行结果截图粘贴到对应答题报告中;


表1 rental_info表字段说明:


字段 说明
user_id 租户id
user_id 租户id
user_name 租户姓名
sex 租户性别
age 租户年龄
address 家庭住址


4、在Mysql库中,查看刚才创建的rental_info表结构,将完整命令及结果截图粘贴到对应答题报告中;

5、在Mysql库中,修改rental_info表结构,将字段sex修改为user_sex,增加字段rental_address(租房地址),字段类型应符合实际意义。将完整命令及运行结果截图粘贴到对应答题报告中;

6、在Mysql库中,向rental_info表中插入三条租客租房信息:


小张,男,29,成都市天府新区,成都市武侯区;

小李,男,27,成都市成华新区,成都市高新区;

小王,男,32,成都市锦江区,成都市天府新区。

将完整命令及运行结果截图粘贴到对应答题报告中;

7、插入数据后,查询表数据,将完整命令及运行结果截图粘贴到对应答题报告中;

8、将rental_info表中user_id为1的记录,姓名修改为张三,年龄修改为35。将完整命令及运行结果截图粘贴到对应答题报告中;

9、修改rental_info表数据后,查询表数据,将完整命令及运行结果截图粘贴到对应答题报告中;

10、删除rental_info表中姓名为小李的数据,将完整命令及运行结果截图粘贴到对应答题报告中;

11、删除rental_info表数据后,查询表数据,将完整命令及运行结果截图粘贴到对应答题报告中。

模块二:数据采集与处理(30分)

任务一:二手房源数据采集(10分)


【任务要求】

本环节需要使用项目文件中导入的库完成关于房源信息的采集、保存等操作。

【任务需求背景】

互联网中的数据是海量的,通过人力操作进行数据采集低效繁琐,如何高效地获取数据源成为首要问题。本项目使用网络爬虫技术对数据信息进行采集,从“二手房信息查询网站”中抓取房源数据,并将数据进行存储。

【具体任务】

1、使用虚拟机中的谷歌浏览器访问“二手房信息查询网站”,网站访问地址为


http://127.0.0.1:5000】,网站首页效果图如下;


2、点击城市标签跳转到对应页面。以“成都”为例,“成都二手房信息”页面展示如下图;

3、使用PyCharm打开桌面上的“House”项目,在“spider”包下的“crawl_house.py”文件中进行编码,该文件用于从“二手房信息查询网站”中抓取北京、广州、天津、深圳、佛山、南宁、太原这7个城市的二手房数据,并按城市名分别保存到xlsx文件中。xlsx文件存储到“House”项目中的【spider/house_data/】目录下,若目录不存在,则需自行创建目录。


抓取的二手房信息数据及文件名要求如下:

文件名 列名
城市名_house.xlsx(如“北京_house.xlsx”) 格局、面积、朝向、层数、房龄、总价、平方价格


任务二:房源信息数据清洗(10分)


【任务要求】

本环节需要使用Excel工具对数据文件的处理,包括排序、筛选、数据标注等。

【任务需求背景】

数据资产时代,人口带来了数据,数据成就了社会发展,数据可以说无处不在。随着科技的不断发展,我们生活中产生的数据量越来越大,如何从海量数据中筛选出真正需要的数据是非常关键的。本任务使用Excel工具对数据进行处理,根据要求筛选出对应的房源。

【具体任务】

1、使用Excel打开任务一中保存的“北京”和“深圳”两地的房源信息文件;

2、筛选出面积在90—100m2平方以及价格最低的20个房源信息,在最后一列后面新增一列“意向排行”,按价格顺序从低到高,前10行标注为“优质房源”,后10行标注为“一般房源”。完成后在答题报告上粘贴相应的截图。

任务三:新房数据处理(10分)


【任务要求】

本环节需要使用NumPy、Pandas等数据处理工具完成关于新房信息数据的处理,并将处理后的数据进行保存。

【任务需求背景】

数据处理能将大量可能是杂乱无章的数据分为不同的类别和组织,为人们提供有用、有意义、易于理解的信息,帮助人们更加高效地管理和使用数据。而在现代社会,数据处理貫穿于各个领域,成为了人们对数据分类、组织、编码、存储、查询和维护等活动的关键环节。现在有一批新房信息数据,每个新房信息包括格局、面积、朝向、层数、房龄、价格等字段。需要针对原始数据中的异常数据进行处理,以便后续的使用。

【具体任务】

1、使用PyCharm打开虚拟机桌面上的“House”项目,在“clean_data”包下的“clean_house.py”文件中进行编码,该文件用于清洗新房数据并保存。

2、待清洗数据保存在“House”项目“clean_data”包的“data”下,清洗要求如下:

(1)针对“价格”列进行数据切分,切分后列名设置为“总价”、“平均价格”。

(2)针对“价格”列中存在的缺失数据,如果有另一条数据的“面积”列与之相同,则用该数据中的“价格”进行填充;如果不存在,则删除存在缺失值的数据。

(3)针对其他列中存在缺失值的数据,一律执行删除操作。

3、将处理完成后的数据进行保存,按城市名分别保存为xlsx文件(如“北京_new_house.xlsx”),存储到“House”项目中的【clean_data/house_data/】目录下,若目录不存在,则需自行创建目录。

4、使用Excel打开【clean_data/house_data/】目录下保存的文件,按“面积”列进行排序,完成后在答题报告上粘贴相应的截图。

模块三:大数据应用开发(45分)

任务一:基于Tableau进行数据分析与可视化(10分)


【任务要求】

本环节需要使用数据可视化工具Tableau,基于房源信息数据进行可视化展示;

【任务需求背景】

为了了解各城市租房的整体情况,以便更好的为客户提供服务。通过对租房信息数据进行分析和可视化,可以获得一些重要的信息,如房源面积、房源价格、房源地段等,这些信息可以帮助我们更好的了解城市租房的整体情况。

【具体任务】

1、租房信息相关数据存储在Windows桌面“draw_price”下的“各城市租房信息.csv”中,使用数据可视化工具Tableua连接Windows桌面目录下的csv文件数据源,绘制租房价格随面积变化的折线图。X轴标签显示为面积,Y轴标签设置为最高租赁价格,标题设置为“面积-房价走势图”;

2、根据“各城市租房信息.csv”数据表,使用Tableua连接csv文件数据源,根据“房源地段”统计出各地段的在售房源数据,绘制在售房源数据统计柱状图。X轴刻度标签显示为地段名称,Y轴标签显示为在售房源数量,标题设置为“各地段在售房源对比图”。

3、X轴刻度标签字体大小为自定义大小,Y轴刻度标签字体大小为自定义大小;

4、将绘制完成后的图表进行截图,粘贴到答题报告上对应位置。

任务二:基于Excel进行数据分析与可视化(10分)


【任务要求】

本环节需要使用Excel开发工具,对各城市的租房价格数据表进行数据分析与处理,进行可视化展示;

【任务需求背景】

为了了解各城市租房的整体情况,以便更好的为客户提供服务。通过对租房信息数据进行分析和可视化,可以获得一些重要的信息,如房源面积、房源价格、房源地段等,这些信息可以帮助我们更好的了解城市租房的整体情况。

【具体任务】

1、使用Excel工具打开Windows桌面“draw_price”文件下的“各城市租房信息.csv”,使用该数据源绘制柱状图,X轴标签设置为城市名,Y轴标签设置为平均租房价格,标题设置为“各城市租房均价对比图”,X轴刻度标签字体大小为8,Y轴刻度标签字体大小为8;

(1)使用透视表在新工作表中进行插入,选取所有的城市名作为A列,选取租房的价格求平均后作为B列;

(2)以城市名作为x轴数据,以平均价格作为Y轴数据进行柱状图的绘制;

(3)柱体颜色设置为蓝色,图表使用橙色填充,黑色边框;

2、使用Excel工具打开Windows桌面“draw_price”文件下的“各城市租房信息.csv”,筛选出“北京”的城市数据,根据“房源户型”的分类进行统计,统计出每类户型对应的房源数,基于户型统计数据绘制户型分布圆环图。

3、将绘制完成后的图表进行截图,粘贴到答题报告上对应位置。

任务三:基于Python对租房数据绘制折线图(10分)


【任务要求】

本环节需要使用Pycharm开发工具,Numpy、Pandas、Matplotlib、Seaborn等库,基于房源信息数据绘制租房价格随面积变化的折线图;

【任务需求背景】

为了了解各城市租房的整体情况,以便更好的为客户提供服务。通过对租房信息数据进行分析和可视化,可以获得一些重要的信息,如房源面积、房源价格、房源地段等,这些信息可以帮助我们更好的了解城市租房的整体情况。

【具体任务】

1、租房信息存储在虚拟机桌面的“House”项目中“draw_price”下的“各城市租房信息.csv”中,在同级目录的draw_img1.py中完成折线图绘制;

2、使用Pandas库读取CSV文件,筛选出面积作为X轴数据,以对应价格作为Y轴数据,以城市名作为划分依据,使用Matplotlib库绘制多条折线图,展示各城市下各面积对应房价走势对比图;

3、标题设置为:各城市租房价格对比图;

4、X轴标签显示为房屋面积,Y轴标签显示为租赁价格;

5、X轴刻度标签字体大小为10,Y轴刻度标签字体大小为10;

6、将绘制的图片保存到“House”项目的“Img”路径下,命名为“line.png”,若目录不存在需自行创建。

7、将绘制完成后的图进行截图,粘贴到答题报告上对应位置。

任务四:基于Python对租房数据绘制散点图(10分)


【任务要求】

本环节需要使用Pycharm开发工具,Numpy、Pandas、Matplotlib、Seaborn等库,基于房源信息数据绘制各城市最高租房价格的散点图;

【任务需求背景】

为了了解各城市租房的整体情况,以便更好的为客户提供服务。通过对租房信息数据进行分析和可视化,可以获得一些重要的信息,如房源面积、房源价格、房源地段等,这些信息可以帮助我们更好的了解城市租房的整体情况。

【具体任务】

1、租房信息存储在虚拟机桌面的“House”项目中“draw_price”下的“各城市租房信息.csv”中,在同级目录的draw_img2.py中完成散点图绘制;

2、使用Pandas库读取CSV文件,使用Matplotlib库绘制各城市房价散点图;

(1)以城市名作为划分依据,

(2)将“房屋面积”划分为7类作为X轴数据,分别为“50㎡以下”、“50㎡80㎡”、“80㎡100㎡”、“100㎡120㎡”、“120㎡150㎡”、“150㎡~200㎡”、“200㎡以上”,以每类面积的平均房价作为Y轴数据,绘制散点图。

(3)标题设置为:各城市不同面积租房均价分布图;

(4)X轴标签显示为房屋面积,Y轴标签显示为租赁平均价格;

(5)X轴刻度标签字体大小为8,Y轴刻度标签字体大小为8;

(6)将绘制的散点图保存到“House”项目的“Img”路径下,命名为“scatter.png”,若目录不存在需自行创建。

3、将绘制完成后的图进行截图,粘贴到答题报告上对应位置。

任务五:数据分析报告(5分)


【任务要求】

本环节根据数据分析结果输出数据分析报告;

【任务需求背景】

通过对租房信息数据进行分析和可视化,我们更好的了解城市租房的整体情况,分析出不同区域的户型分布、房价走势、房源数量、租房中介信息等,根据分析可视化结果提出合适的决策建议与方案。

【具体任务】

1、根据“各城市租房信息.csv”信息及前面四个任务的可视化结果,打开虚拟机桌面“House”项目下的“数据分析报告.docx”文件,完善数据分析报告,为“爱家客”中介提出合适的房源上新意见。

2、将填写的内容进行截图并粘贴到答题报告对应位置。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
98 1
|
2月前
|
自然语言处理 大数据 应用服务中间件
大数据-172 Elasticsearch 索引操作 与 IK 分词器 自定义停用词 Nginx 服务
大数据-172 Elasticsearch 索引操作 与 IK 分词器 自定义停用词 Nginx 服务
64 5
|
2月前
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
2月前
|
消息中间件 监控 Ubuntu
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
82 3
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
|
2月前
|
存储 分布式计算 druid
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
59 1
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
ly~
|
2月前
|
供应链 搜索推荐 安全
大数据模型的应用
大数据模型在多个领域均有广泛应用。在金融领域,它可用于风险评估与预测、智能营销及反欺诈检测,助力金融机构做出更加精准的决策;在医疗领域,大数据模型能够协助疾病诊断与预测、优化医疗资源管理和加速药物研发;在交通领域,该技术有助于交通流量预测、智能交通管理和物流管理,从而提升整体交通效率;电商领域则借助大数据模型实现商品推荐、库存管理和价格优化,增强用户体验与企业效益;此外,在能源和制造业中,大数据模型的应用范围涵盖从需求预测到设备故障预测等多个方面,全面推动了行业的智能化转型与升级。
ly~
116 2
|
2月前
|
存储 分布式计算 druid
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
58 3
ly~
|
2月前
|
供应链 搜索推荐 大数据
大数据在零售业中的应用
在零售业中,大数据通过分析顾客的购买记录、在线浏览习惯等数据,帮助零售商理解顾客行为并提供个性化服务。例如,分析网站点击路径以了解顾客兴趣,并利用历史购买数据开发智能推荐系统,提升销售和顾客满意度。此外,大数据还能优化库存管理,通过分析销售数据和市场需求,更准确地预测需求,减少库存积压和缺货现象,提高资金流动性。
ly~
332 2
ly~
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据在智慧金融中的应用
在智能算法交易中,深度学习揭示价格波动的复杂动力学,强化学习依据市场反馈优化策略,助力投资者获取阿尔法收益。智能监管合规利用自然语言处理精准解读法规,实时追踪监管变化,确保机构紧跟政策。大数据分析监控交易,预警潜在违规行为,变被动防御为主动预防。数智化营销通过多维度数据分析,构建细致客户画像,提供个性化产品推荐。智慧客服借助 AI 技术提升服务质量,增强客户满意度。
ly~
123 3
ly~
|
2月前
|
供应链 监控 搜索推荐
大数据的应用场景
大数据在众多行业中的应用场景广泛,涵盖金融、零售、医疗保健、交通物流、制造、能源、政府公共服务及教育等领域。在金融行业,大数据用于风险评估、精准营销、反欺诈以及决策支持;零售业则应用于商品推荐、供应链管理和门店运营优化等;医疗保健领域利用大数据进行疾病预测、辅助诊断和医疗质量评估;交通物流业通过大数据优化物流配送、交通管理和运输安全;制造业则在生产过程优化、设备维护和供应链协同方面受益;能源行业运用大数据提升智能电网管理和能源勘探效率;政府和公共服务部门借助大数据改善城市管理、政务服务及公共安全;教育行业通过大数据实现个性化学习和资源优化配置;体育娱乐业则利用大数据提升赛事分析和娱乐制作水平。
ly~
437 2
下一篇
无影云桌面