大数据行业应用之Hive数据分析航班线路相关的各项指标

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据行业应用之Hive数据分析航班线路相关的各项指标

项目概要

1.项目背景:

飞机航班经常会因为各种原因,如天气原因,雷雨、大雾、大风等情况,或机场原因,导致航班的延误甚至取消,现在有一批航班的历史数据,基于这些数据,对航班的各种重要指标做统计分析,如最繁忙航线、某机场起降最频繁时段等等;最后,利用机器学习,对航班延误做预测,旅客可参考这些统计及预测结果调整行程安排。

2.建设目标:

亲自动手搭建项目所需的实验环境:搭建hadoop集群、分析航空数据的一些指标;

需求分析

1.需求介绍:分析航班相关的各项指标

2.功能点:数据清洗

功能描述:对航班数据flights.csv及airport.csv文件进行数据的清洗,备接下来的数据分析使用。

3.功能点:打开hive分析环境

功能描述:打开数据分析的环境,使用hive命令行的方式分析数据;

4.功能点:读取航班及机场信息

功能描述:使用hive来读取航班及机场信息,并分别注册成临时表,在接下来的分析中会用到这两个视图。

5.功能点:分析共有哪些航班?

功能描述:分析共有哪些航班,对重复的航班进行过滤,只要从航班数据中将经过去重后的航班号求出即可

6.功能点:航班最频繁的5条航线

功能描述:航班从起飞机场origin到落地机场dest(即:origion -> dest),简单定义为航线,现要统计最频繁的5条航线,先将数据按照origin,dest分组,再按每组的个数降序排序,取头5条,从而统计出来航班最频繁的5条航线的相关信息

7.功能点:航班最空闲的航线

功能描述:与上一个需求基本相似,排序顺序相反,以一条数据

8.功能点:航班最多的机场统计

功能描述:将航班flights数据按照origin起飞地分组,降序排序,取头一个

9.功能点:延误最少航班统计

功能描述:先获得每架航班的出发总延误时间,进行降序排序,取头一条;即:对flights数据按照航班分组,求每组的延误时间总和,并降序排序,取头一条

解决方案

架构简介:

本案例使用Hadoop作为底层支持,其中HDFS提供底层存储支持,Yarn提供集群中应用的资源调度支持;Hive提供数据访问支持。

模块名称:(实际使用了哪些模块都要在这里体现出来,并要有描述)

数据存储模块:

数据存储在HDFS中

数据计算模块:

使用hive对表数据进行分析计算

.

准备工作

数据介绍:共两份数据:航班数据及机场数据。

不同年份的航班信息数据,此处以2000年的数据2000.csv为例,字段及说明如下表:

航班信息数据介绍:

Name Description 字段描述

1 Year 1987-2008 此飞行记录所属年份

2 Month 1~12 此飞行记录所属月份

3 DayofMonth 1~31 此飞行记录所属当月的第几天

4 DayOfWeek 1 (Monday) - 7 (Sunday) 此飞行发生在本周第几天

5 DepTime actual departure time (local, hhmm) 实际飞离机场时间(小时分钟,如1940表示19点40分)

6 CRSDepTime scheduled departure time (local, hhmm) 计划分离机场时间(小时分钟,如1940表示19点40分)

7 ArrTime actual arrival time (local, hhmm) 实际抵达机场时间(小时分钟,如1940表示19点40分)

8 CRSArrTime scheduled arrival time (local, hhmm) 计划抵达机场时间(小时分钟,如1940表示19点40分)

9 UniqueCarrier unique carrier code 航空公司代码

10 FlightNum flight number 航班号

11 TailNum plane tail number 机尾编号

12 ActualElapsedTime in minutes 航程实际耗时(单位分钟)

13 CRSElapsedTime in minutes 航程计划耗时(单位分钟)

14 AirTime in minutes 飞机空中飞行时长(单位分钟)

15 ArrDelay arrival delay, in minutes 抵达晚点时长(单位分钟)

16 DepDelay departure delay, in minutes 出发延误时长(单位分钟)

17 Origin origin IATA airport code 出发所在机场编号(国际航空运输协会指定)

18 Dest destination IATA airport code 抵达机场编号(国际航空运输协会指定)

19 Distance in miles 航程(单位英里)

20 Cancelled was the flight cancelled? 航班是否取消

21 CancellationCode reason for cancellation (A = carrier, B = weather, C = NAS, D = security) 航班取消代码

22 Diverted 1 = yes, 0 = no 是否改道(1是,0否)

23 WeatherDelay in minutes 天气原因延迟

24 SecurityDelay in minutes 安全原因延迟

机场数据:数据介绍:

iata 国际航空运输协会代码

airport 机场

city 城市

state 州

country 国家

lat 纬度

long 经度

数据采集

由于本案例采集的获取数据的手册并非是大数据行业中常用的数据采集方案,与大数据相关性不大,所以此案例直接提供采集下来的数据,供案例使用。

数据清洗

航空数据集和机场数据中存在一些不合理的数据,需要对这部分做清洗,清洗后的结果留待接下来的操作中使用。

数据存储

本案例的重点是数据分析,此部分可以自己使用传统的JDBC方式存在到关系型数据库中。

数据计算

数据计算即是数据分析,本案例中对机场数据及航班数据进行分析,得出各项指标。数据计算常用手段有MapReduce, Hive,等等,本案例选择使用hive进行数据分析。具体的数据分析请见实验手册。

数据可视化

隐藏此模块。

开始实验

介绍:主要分两部分,第一部分是实验环境的准备,包括“hadoop集群安装部署”;第二部分是真正的数据分析部分。


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
传感器 Java 大数据
Java 大视界 -- 基于 Java 的大数据实时数据处理在车联网车辆协同控制中的应用与挑战(197)
本文深入探讨了基于 Java 的大数据实时数据处理在车联网车辆协同控制中的关键应用与技术挑战。内容涵盖数据采集、传输与实时处理框架,并结合实际案例分析了其在车辆状态监测、交通优化与协同驾驶中的应用效果,展示了 Java 大数据技术在提升交通安全性与效率方面的巨大潜力。
|
2月前
|
存储 分布式计算 Java
Java 大视界 -- Java 大数据在智能建筑能耗监测与节能策略制定中的应用(182)
本文探讨了Java大数据技术在智能建筑能耗监测与节能策略制定中的关键应用。通过Hadoop、Spark等技术实现能耗数据的存储、分析与可视化,结合实际案例,展示了Java大数据如何助力建筑行业实现节能减排目标。
|
2月前
|
存储 机器学习/深度学习 Java
Java 大视界 -- Java 大数据在智慧水利水资源调度与水情预测中的应用创新(180)
本文探讨了Java大数据技术在智慧水利中的创新应用,重点分析了其在水资源调度与水情预测中的关键技术与实践案例。通过大数据存储、实时处理与深度学习模型,Java有效提升了水利数据管理效率与水情预测准确性,助力传统水利向智能化转型。
|
3月前
|
数据采集 人工智能 算法
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
97 1
|
2月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
本文深入探讨了Java大数据技术在智能金融理财产品风险评估与个性化配置中的关键应用。通过高效的数据采集、存储与分析,Java大数据技术助力金融机构实现精准风险评估与个性化推荐,提升投资收益并降低风险。
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
|
1月前
|
存储 供应链 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业供应链风险预警与决策支持中的应用(204)
本篇文章探讨了基于 Java 的大数据可视化技术在企业供应链风险预警与决策支持中的深度应用。文章系统介绍了从数据采集、存储、处理到可视化呈现的完整技术方案,结合供应链风险预警与决策支持的实际案例,展示了 Java 大数据技术如何助力企业实现高效、智能的供应链管理。
|
1月前
|
存储 SQL Java
Java 大视界 -- Java 大数据在智能医疗手术风险评估与术前方案制定中的应用探索(203)
本文探讨了Java大数据技术在智能医疗手术风险评估与术前方案制定中的创新应用。通过多源数据整合、智能分析模型构建及知识图谱技术,提升手术风险预测准确性与术前方案制定效率,助力医疗决策智能化,推动精准医疗发展。
|
2月前
|
机器学习/深度学习 Java 大数据
Java 大视界 -- Java 大数据在智能政务公共资源交易数据分析与监管中的应用(202)
本篇文章深入探讨了 Java 大数据在智能政务公共资源交易监管中的创新应用。通过构建高效的数据采集、智能分析与可视化决策系统,Java 大数据技术成功破解了传统监管中的数据孤岛、效率低下和监管滞后等难题,为公共资源交易打造了“智慧卫士”,助力政务监管迈向智能化、精准化新时代。
|
2月前
|
数据采集 机器学习/深度学习 Java
Java 大视界 -- Java 大数据在智能体育赛事运动员体能监测与训练计划调整中的应用(200)
本篇文章聚焦 Java 大数据在智能体育赛事中对运动员体能监测与训练计划的智能化应用。通过构建实时数据采集与分析系统,结合机器学习模型,实现对运动员体能状态的精准评估与训练方案的动态优化,推动体育训练迈向科学化、个性化新高度。
|
2月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。

热门文章

最新文章