1.数据集介绍
本数据来源于Kaggle,原始数据共有103904条,共23个特征,具体各变量含义如下:
Gender:乘客性别(女、男)
Customer Type:客户类型(Loyal customer, disloyal customer)
Age:乘客的实际年龄
Type of Travel:乘客的飞行目的(个人旅行、商务旅行)
Class:乘客飞机的旅行等级(商务舱、经济舱、经济舱)
Flight Distance:本次行程的飞行距离
Inflight wifi service:对机上wifi服务的满意度(0:不适用;1-5)
Departure/Arrival time convenient:对出发/到达时间方便的满意度
Ease of Online booking:在线预订的满意度
Gate location:对Gate location的满意度
Food and drink:食物和饮料的满意度
Online boarding:网上寄宿的满意度
Seat comfort:座椅舒适度满意度
Inflight entertainment:机上娱乐满意度
On-board service:船上服务满意度
Leg room service:腿部空间服务满意度
Baggage handling:行李处理满意度
Checkin service:值机服务满意度
Inflight service:机上服务满意度
Cleanliness:清洁度满意度
Departure Delay in Minutes:出发时延迟的分钟数
Arrival Delay in Minutes:到达时延迟的分钟数
Satisfaction:航空公司满意度(满意、中立或不满意)
2.技术工具
Python版本:3.9
代码编辑器:jupyter notebook
3.导入数据
首先导入本次实验用到的第三方库,然后导入航空公司满意度数据
接着删除数据集中的缺失值
4.数据探索性分析
这里我先自定义三个可视化图形的函数,方便后面调用
4.1相关性分析
正相关:商务舱、在线登机和商务旅行是人们满意的主要原因。
负相关:个人旅行和经济舱导致不满意。
4.2性别对满意度的影响
4.3年龄对满意度的影响
看起来分布是相当对称的,大多数人都在40岁左右。也许我们可以说满意的人比不满意的人更大。 满意的人大约在40-56岁之间。不满意的年龄在20-40岁之间。
4.4旅行类型对满意度的影响
个人旅行有很大的影响。大多数个人旅行者都是不满意的人。
4.5座椅等级对满意度的影响
好吧,我们可以注意到经济舱有很多不满意的人…大多数经济舱乘客也不满意。另一方面,商务舱有大多数满意的人。
4.6客户类型对满意度的影响
忠诚客户大多数都是商务舱。不忠诚客户大多数都是经济舱。这里我们可以注意到,大多数个人旅行乘坐的是经济舱。这与个人旅行和经济舱都有很多不满意的人的事实是一致的。另一方面,大多数商务旅行都乘坐商务舱。
4.7飞行距离对满意度的影响
似乎没有影响。大多数旅行都是500单位距离。
4.8航班延迟对满意度的影响
正如预期的那样,出发延误对到达延误有很强的相关性。我们还可以注意到,出发延误近似等于到达延误。它告诉我们知道延误只发生在航班开始前(而不是在飞行过程中)。
大多数人对出发和到达时间的满意度为4级或5级。
4.9其他分析
现在我们来分析一下跟量表有关的变量,也就是说这些变量都是打分制0-5
相关系数热力图