大数据行业应用之Hive数据分析航班线路相关的各项指标

简介: 大数据行业应用之Hive数据分析航班线路相关的各项指标

项目概要

1.项目背景:

飞机航班经常会因为各种原因,如天气原因,雷雨、大雾、大风等情况,或机场原因,导致航班的延误甚至取消,现在有一批航班的历史数据,基于这些数据,对航班的各种重要指标做统计分析,如最繁忙航线、某机场起降最频繁时段等等;最后,利用机器学习,对航班延误做预测,旅客可参考这些统计及预测结果调整行程安排。

2.建设目标:

亲自动手搭建项目所需的实验环境:搭建hadoop集群、分析航空数据的一些指标;

需求分析

1.需求介绍:分析航班相关的各项指标

2.功能点:数据清洗

功能描述:对航班数据flights.csv及airport.csv文件进行数据的清洗,备接下来的数据分析使用。

3.功能点:打开hive分析环境

功能描述:打开数据分析的环境,使用hive命令行的方式分析数据;

4.功能点:读取航班及机场信息

功能描述:使用hive来读取航班及机场信息,并分别注册成临时表,在接下来的分析中会用到这两个视图。

5.功能点:分析共有哪些航班?

功能描述:分析共有哪些航班,对重复的航班进行过滤,只要从航班数据中将经过去重后的航班号求出即可

6.功能点:航班最频繁的5条航线

功能描述:航班从起飞机场origin到落地机场dest(即:origion -> dest),简单定义为航线,现要统计最频繁的5条航线,先将数据按照origin,dest分组,再按每组的个数降序排序,取头5条,从而统计出来航班最频繁的5条航线的相关信息

7.功能点:航班最空闲的航线

功能描述:与上一个需求基本相似,排序顺序相反,以一条数据

8.功能点:航班最多的机场统计

功能描述:将航班flights数据按照origin起飞地分组,降序排序,取头一个

9.功能点:延误最少航班统计

功能描述:先获得每架航班的出发总延误时间,进行降序排序,取头一条;即:对flights数据按照航班分组,求每组的延误时间总和,并降序排序,取头一条

解决方案

架构简介:

本案例使用Hadoop作为底层支持,其中HDFS提供底层存储支持,Yarn提供集群中应用的资源调度支持;Hive提供数据访问支持。

模块名称:(实际使用了哪些模块都要在这里体现出来,并要有描述)

数据存储模块:

数据存储在HDFS中

数据计算模块:

使用hive对表数据进行分析计算

.

准备工作

数据介绍:共两份数据:航班数据及机场数据。

不同年份的航班信息数据,此处以2000年的数据2000.csv为例,字段及说明如下表:

航班信息数据介绍:

Name Description 字段描述

1 Year 1987-2008 此飞行记录所属年份

2 Month 1~12 此飞行记录所属月份

3 DayofMonth 1~31 此飞行记录所属当月的第几天

4 DayOfWeek 1 (Monday) - 7 (Sunday) 此飞行发生在本周第几天

5 DepTime actual departure time (local, hhmm) 实际飞离机场时间(小时分钟,如1940表示19点40分)

6 CRSDepTime scheduled departure time (local, hhmm) 计划分离机场时间(小时分钟,如1940表示19点40分)

7 ArrTime actual arrival time (local, hhmm) 实际抵达机场时间(小时分钟,如1940表示19点40分)

8 CRSArrTime scheduled arrival time (local, hhmm) 计划抵达机场时间(小时分钟,如1940表示19点40分)

9 UniqueCarrier unique carrier code 航空公司代码

10 FlightNum flight number 航班号

11 TailNum plane tail number 机尾编号

12 ActualElapsedTime in minutes 航程实际耗时(单位分钟)

13 CRSElapsedTime in minutes 航程计划耗时(单位分钟)

14 AirTime in minutes 飞机空中飞行时长(单位分钟)

15 ArrDelay arrival delay, in minutes 抵达晚点时长(单位分钟)

16 DepDelay departure delay, in minutes 出发延误时长(单位分钟)

17 Origin origin IATA airport code 出发所在机场编号(国际航空运输协会指定)

18 Dest destination IATA airport code 抵达机场编号(国际航空运输协会指定)

19 Distance in miles 航程(单位英里)

20 Cancelled was the flight cancelled? 航班是否取消

21 CancellationCode reason for cancellation (A = carrier, B = weather, C = NAS, D = security) 航班取消代码

22 Diverted 1 = yes, 0 = no 是否改道(1是,0否)

23 WeatherDelay in minutes 天气原因延迟

24 SecurityDelay in minutes 安全原因延迟

机场数据:数据介绍:

iata 国际航空运输协会代码

airport 机场

city 城市

state 州

country 国家

lat 纬度

long 经度

数据采集

由于本案例采集的获取数据的手册并非是大数据行业中常用的数据采集方案,与大数据相关性不大,所以此案例直接提供采集下来的数据,供案例使用。

数据清洗

航空数据集和机场数据中存在一些不合理的数据,需要对这部分做清洗,清洗后的结果留待接下来的操作中使用。

数据存储

本案例的重点是数据分析,此部分可以自己使用传统的JDBC方式存在到关系型数据库中。

数据计算

数据计算即是数据分析,本案例中对机场数据及航班数据进行分析,得出各项指标。数据计算常用手段有MapReduce, Hive,等等,本案例选择使用hive进行数据分析。具体的数据分析请见实验手册。

数据可视化

隐藏此模块。

开始实验

介绍:主要分两部分,第一部分是实验环境的准备,包括“hadoop集群安装部署”;第二部分是真正的数据分析部分。


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
5月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
本文探讨Java大数据可视化在城市空气质量监测与污染溯源中的创新应用,结合多源数据采集、实时分析与GIS技术,助力环保决策,提升城市空气质量管理水平。
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
|
5月前
|
存储 监控 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业生产运营监控与决策支持中的应用(228)
本文探讨了基于 Java 的大数据可视化技术在企业生产运营监控与决策支持中的关键应用。面对数据爆炸、信息孤岛和实时性不足等挑战,Java 通过高效数据采集、清洗与可视化引擎,助力企业构建实时监控与智能决策系统,显著提升运营效率与竞争力。
|
5月前
|
Java 大数据 数据处理
Java 大视界 -- 基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战(222)
本文探讨了基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战。文章分析了传统制造模式的局限性,介绍了工业互联网带来的机遇,并结合实际案例展示了 Java 在多源数据采集、实时处理及设备协同优化中的关键技术应用。同时,也深入讨论了数据安全、技术架构等挑战及应对策略。
|
5月前
|
数据采集 搜索推荐 Java
Java 大视界 -- Java 大数据在智能教育虚拟学习环境构建与用户体验优化中的应用(221)
本文探讨 Java 大数据在智能教育虚拟学习环境中的应用,涵盖多源数据采集、个性化推荐、实时互动优化等核心技术,结合实际案例分析其在提升学习体验与教学质量中的成效,并展望未来发展方向与技术挑战。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。
|
5月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。
|
5月前
|
机器学习/深度学习 安全 Java
Java 大视界 -- Java 大数据在智能金融反洗钱监测与交易异常分析中的应用(224)
本文探讨 Java 大数据在智能金融反洗钱监测与交易异常分析中的应用,介绍其在数据处理、机器学习建模、实战案例及安全隐私等方面的技术方案与挑战,展现 Java 在金融风控中的强大能力。
|
5月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据机器学习模型在生物信息学基因功能预测中的优化与应用(223)
本文探讨了Java大数据与机器学习模型在生物信息学中基因功能预测的优化与应用。通过高效的数据处理能力和智能算法,提升基因功能预测的准确性与效率,助力医学与农业发展。
|
5月前
|
机器学习/深度学习 搜索推荐 数据可视化
Java 大视界 -- Java 大数据机器学习模型在电商用户流失预测与留存策略制定中的应用(217)
本文探讨 Java 大数据与机器学习在电商用户流失预测与留存策略中的应用。通过构建高精度预测模型与动态分层策略,助力企业提前识别流失用户、精准触达,实现用户留存率与商业价值双提升,为电商应对用户流失提供技术新思路。