大数据行业应用之Hive数据分析航班线路相关的各项指标

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 大数据行业应用之Hive数据分析航班线路相关的各项指标

项目概要

1.项目背景:

飞机航班经常会因为各种原因,如天气原因,雷雨、大雾、大风等情况,或机场原因,导致航班的延误甚至取消,现在有一批航班的历史数据,基于这些数据,对航班的各种重要指标做统计分析,如最繁忙航线、某机场起降最频繁时段等等;最后,利用机器学习,对航班延误做预测,旅客可参考这些统计及预测结果调整行程安排。

2.建设目标:

亲自动手搭建项目所需的实验环境:搭建hadoop集群、分析航空数据的一些指标;

需求分析

1.需求介绍:分析航班相关的各项指标

2.功能点:数据清洗

功能描述:对航班数据flights.csv及airport.csv文件进行数据的清洗,备接下来的数据分析使用。

3.功能点:打开hive分析环境

功能描述:打开数据分析的环境,使用hive命令行的方式分析数据;

4.功能点:读取航班及机场信息

功能描述:使用hive来读取航班及机场信息,并分别注册成临时表,在接下来的分析中会用到这两个视图。

5.功能点:分析共有哪些航班?

功能描述:分析共有哪些航班,对重复的航班进行过滤,只要从航班数据中将经过去重后的航班号求出即可

6.功能点:航班最频繁的5条航线

功能描述:航班从起飞机场origin到落地机场dest(即:origion -> dest),简单定义为航线,现要统计最频繁的5条航线,先将数据按照origin,dest分组,再按每组的个数降序排序,取头5条,从而统计出来航班最频繁的5条航线的相关信息

7.功能点:航班最空闲的航线

功能描述:与上一个需求基本相似,排序顺序相反,以一条数据

8.功能点:航班最多的机场统计

功能描述:将航班flights数据按照origin起飞地分组,降序排序,取头一个

9.功能点:延误最少航班统计

功能描述:先获得每架航班的出发总延误时间,进行降序排序,取头一条;即:对flights数据按照航班分组,求每组的延误时间总和,并降序排序,取头一条

解决方案

架构简介:

本案例使用Hadoop作为底层支持,其中HDFS提供底层存储支持,Yarn提供集群中应用的资源调度支持;Hive提供数据访问支持。

模块名称:(实际使用了哪些模块都要在这里体现出来,并要有描述)

数据存储模块:

数据存储在HDFS中

数据计算模块:

使用hive对表数据进行分析计算

.

准备工作

数据介绍:共两份数据:航班数据及机场数据。

不同年份的航班信息数据,此处以2000年的数据2000.csv为例,字段及说明如下表:

航班信息数据介绍:

Name Description 字段描述

1 Year 1987-2008 此飞行记录所属年份

2 Month 1~12 此飞行记录所属月份

3 DayofMonth 1~31 此飞行记录所属当月的第几天

4 DayOfWeek 1 (Monday) - 7 (Sunday) 此飞行发生在本周第几天

5 DepTime actual departure time (local, hhmm) 实际飞离机场时间(小时分钟,如1940表示19点40分)

6 CRSDepTime scheduled departure time (local, hhmm) 计划分离机场时间(小时分钟,如1940表示19点40分)

7 ArrTime actual arrival time (local, hhmm) 实际抵达机场时间(小时分钟,如1940表示19点40分)

8 CRSArrTime scheduled arrival time (local, hhmm) 计划抵达机场时间(小时分钟,如1940表示19点40分)

9 UniqueCarrier unique carrier code 航空公司代码

10 FlightNum flight number 航班号

11 TailNum plane tail number 机尾编号

12 ActualElapsedTime in minutes 航程实际耗时(单位分钟)

13 CRSElapsedTime in minutes 航程计划耗时(单位分钟)

14 AirTime in minutes 飞机空中飞行时长(单位分钟)

15 ArrDelay arrival delay, in minutes 抵达晚点时长(单位分钟)

16 DepDelay departure delay, in minutes 出发延误时长(单位分钟)

17 Origin origin IATA airport code 出发所在机场编号(国际航空运输协会指定)

18 Dest destination IATA airport code 抵达机场编号(国际航空运输协会指定)

19 Distance in miles 航程(单位英里)

20 Cancelled was the flight cancelled? 航班是否取消

21 CancellationCode reason for cancellation (A = carrier, B = weather, C = NAS, D = security) 航班取消代码

22 Diverted 1 = yes, 0 = no 是否改道(1是,0否)

23 WeatherDelay in minutes 天气原因延迟

24 SecurityDelay in minutes 安全原因延迟

机场数据:数据介绍:

iata 国际航空运输协会代码

airport 机场

city 城市

state 州

country 国家

lat 纬度

long 经度

数据采集

由于本案例采集的获取数据的手册并非是大数据行业中常用的数据采集方案,与大数据相关性不大,所以此案例直接提供采集下来的数据,供案例使用。

数据清洗

航空数据集和机场数据中存在一些不合理的数据,需要对这部分做清洗,清洗后的结果留待接下来的操作中使用。

数据存储

本案例的重点是数据分析,此部分可以自己使用传统的JDBC方式存在到关系型数据库中。

数据计算

数据计算即是数据分析,本案例中对机场数据及航班数据进行分析,得出各项指标。数据计算常用手段有MapReduce, Hive,等等,本案例选择使用hive进行数据分析。具体的数据分析请见实验手册。

数据可视化

隐藏此模块。

开始实验

介绍:主要分两部分,第一部分是实验环境的准备,包括“hadoop集群安装部署”;第二部分是真正的数据分析部分。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
1
0
111
分享
相关文章
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
271 92
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
大数据时代的“淘金术”:Python数据分析+深度学习框架实战指南
在大数据时代,数据被视为新财富源泉,而从海量信息中提取价值成为企业竞争的核心。本文通过对比方式探讨如何运用Python数据分析与深度学习框架实现这一目标。Python凭借其强大的数据处理能力及丰富库支持,已成为数据科学家首选工具;而TensorFlow和PyTorch等深度学习框架则为复杂模型构建提供强有力的技术支撑。通过融合Python数据分析与深度学习技术,我们能在各领域中发掘数据的无限潜力。无论是商业分析还是医疗健康,掌握这些技能都将为企业和社会带来巨大价值。
268 6
用Java、Python来开发Hive应用
用Java、Python来开发Hive应用
62 7
用Java来开发Hive应用
用Java来开发Hive应用
78 7
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
137 0
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
327 4
大数据环境下的房地产数据分析与预测研究的设计与实现
Spring 框架邂逅 OAuth2:解锁现代应用安全认证的秘密武器,你准备好迎接变革了吗?
【8月更文挑战第31天】现代化应用的安全性至关重要,OAuth2 作为实现认证和授权的标准协议之一,被广泛采用。Spring 框架通过 Spring Security 提供了强大的 OAuth2 支持,简化了集成过程。本文将通过问答形式详细介绍如何在 Spring 应用中集成 OAuth2,包括 OAuth2 的基本概念、集成步骤及资源服务器保护方法。首先,需要在项目中添加 `spring-security-oauth2-client` 和 `spring-security-oauth2-resource-server` 依赖。
89 0
MaxCompute 在实时数据分析中的角色
【8月更文第31天】随着大数据应用场景的不断扩展,对数据处理速度的要求越来越高,传统的批处理模式已经难以满足某些业务对实时性的需求。在这种背景下,实时数据处理成为了大数据领域的研究热点之一。阿里云的 MaxCompute 虽然主要用于离线数据处理,但通过与其他实时流处理系统(如 Apache Flink 或 Kafka Streams)的集成,也可以参与到实时数据分析中。本文将探讨 MaxCompute 在实时数据分析中的角色,并介绍如何将 MaxCompute 与 Flink 结合使用。
188 0