全文链接:http://tecdat.cn/?p=32760
航班延误是航空公司、旅客和机场管理方面都面临的一个重要问题。航班延误不仅会给旅客带来不便,还会对航空公司和机场的运营产生负面影响(点击文末“阅读原文”获取完整代码数据)。
因此,对航班延误的影响因素进行预测分析,对于航空公司、旅客和机场管理方面都具有重要意义。
本文通过对航班数据进行分析,帮助客户使用lasso变量筛选、决策树、朴素贝叶斯、QDA、LDA等方法,对航班延误的影响因素进行预测分析。同时,本文还对缺失值进行处理,并使用k折交叉验证对模型进行评估。
数据来源和预处理
本文所使用的数据集为航班数据集。数据集中包括了航班号、起飞时间、到达时间、起飞机场、到达机场、航班延误等信息。
data=read.table("12_months_dataFinal.csv") head(data)
colnames(data)
在审查数据之后,有几个方面被认为对航班延误有影响。
1.航空公司:航空公司,尾号和航班号。
2.时间:季度、月和日。
3.操作:承运人,尾号和航班号。
4.地理:起源机场和目的地机场。
选择一些变量做个图看一下变化趋势
点击标题查阅往期内容
PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化
01
02
03
04
因变量为:ARR_DELAY
分别采用三种方法对空值进行处理
在进行数据分析之前,需要对数据进行预处理。本文采用了如下方法进行数据预处理:
(1)删除法
data1=na.omit(data)
(2)平均值补缺
data2[index,i]=mean(na.omit(data[,i]))
R语言航班延误影响预测分析:lasso、决策树、朴素贝叶斯、QDA、LDA、缺失值处理、k折交叉验证(下):https://developer.aliyun.com/article/1497040