python航空公司1949-1960年的乘客人数-数据特征分析(一)

简介: python航空公司1949-1960年的乘客人数-数据特征分析

实验目的  

1、应用数据探索的方法完成案例的质量探索和规律探索;

2、掌握频数分布、集中和离散趋势、偏度和峰度等图表绘制方法或统计方法。

实验任务与要求

任务:根据提供的数据,对航空公司1949-1960年的乘客人数完成数据探索任务。

要求:

1、根据数据集找出这12年来客运人数的趋势;

2、找出乘客人数的季节趋势;

3、对乘客人数做简单的描述性分析。

实验原理(技术)

应用数据探索的方法进行案例分析,包括数值统计与图表绘制等探索方法。

异常值分析是检验数据是否有录入错误以及含有不合常理的数据。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点的分析。异常值分析方法主要有:简单统计量分析、3σ原则、箱型图分析。

箱形图:依据实际数据绘制,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据分布的本来面貌。

实验记载  

步骤(算法、程序)、数据记录与处理、结果分析等

1.查看数据

1.  使用pandas导入数据

1. import pandas as pd
2. import numpy as np
3. 
4. data = pd.read_excel('实验1data.xlsx') # 以年份为索引
5. print(data.shape)
6. # 观察各列数据
7. print(data.head())

 

 

2.  观察数据基本信息,对数据进行统计量描述,同时用相关函数进行数据的统计与查询

1. print('-------------------------统计量描述-------------------------')
2. explore = data.describe(percentiles=[], include='all').T # percentiles参数是指定计算多少的分位数表
3. explore['null'] = len(data) - explore['count'] # describe()函数自动计算非空值数,需要手动计算空值数
4. print(explore.head())
5. explore = explore[['null', 'max', 'min','mean']]
6. explore.columns = [u'空值数', u'最大值', u'最小值',u'平均值']  # 表头重命名
7. # explore.to_csv('统计量描述.csv')  # 保存结果
8. print('--------------------------空值统计--------------------------')
9. print(data.isnull().sum())

 

describe()函数对数据进行描述性分析

可以看到每年每月数据的分布情况

 

1. data.describe()
2. # 查看数据的基本描述

 

2.整理数据

将“year”字段作为索引

 

1. # 设置year为索引
2. data1=data.set_index('year')
3. data1

 

3.画箱型图

观察数据异常状态,数据没有异常

 

1. import matplotlib.pyplot as plt
2. 
3. fig = plt.figure(figsize=(5,4))  # 设置画布大小
4. plt.rcParams['font.sans-serif'] = ['SimHei']  # 黑体
5. plt.rcParams['axes.unicode_minus'] = False    # 解决无法显示符号的问题
6. 
7. data.plot.box(title='箱型图')
8. plt.xlabel('月份')
9. plt.ylabel('数量')
10. 
11. # 没有异常值

1. import matplotlib.pyplot as plt
2. 
3. fig = plt.figure(figsize=(5,4))  # 设置画布大小
4. plt.rcParams['font.sans-serif'] = ['SimHei']  # 黑体
5. plt.rcParams['axes.unicode_minus'] = False    # 解决无法显示符号的问题
6. 
7. data.boxplot(notch=True,showmeans=True,patch_artist=True) 
8. plt.title('箱型图')
9. plt.xlabel('月份')
10. plt.ylabel('数量')
11. plt.grid(False)

 

 


相关文章
|
4天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】金融数据分析中的机器学习应用
【4月更文挑战第30天】本文探讨了机器学习在金融数据分析中的应用,如股价预测、信用评分、欺诈检测、算法交易和风险管理,并以Python为例展示了如何进行股价预测。通过使用机器学习模型,金融机构能更准确地评估风险、识别欺诈行为并优化交易策略。Python结合scikit-learn库简化了数据分析过程,助力金融从业者提高决策效率。随着技术发展,机器学习在金融领域的影响力将持续增强。
|
4天前
|
机器学习/深度学习 Python
【Python 机器学习专栏】混淆矩阵与 ROC 曲线分析
【4月更文挑战第30天】本文介绍了机器学习中评估模型性能的两种工具——混淆矩阵和ROC曲线。混淆矩阵显示了模型在不同类别上的预测情况,包括真正例、假正例、真反例和假反例,帮助评估模型错误类型和数量。ROC曲线则通过假正率和真正率展示了模型的二分类性能,曲线越接近左上角,性能越好。文章还提供了Python中计算混淆矩阵和ROC曲线的代码示例,强调它们在模型选择、参数调整和理解模型行为中的应用价值。
|
4天前
|
数据采集 数据挖掘 测试技术
python、R语言ARIMA-GARCH分析南方恒生中国企业ETF基金净值时间序列分析
python、R语言ARIMA-GARCH分析南方恒生中国企业ETF基金净值时间序列分析
16 1
|
4天前
|
机器学习/深度学习 存储 数据采集
【Python 机器学习专栏】PCA(主成分分析)在数据降维中的应用
【4月更文挑战第30天】本文探讨了主成分分析(PCA)在高维数据降维中的应用。PCA通过线性变换找到最大化方差的主成分,从而降低数据维度,简化存储和计算,同时去除噪声。文章介绍了PCA的基本原理、步骤,强调了PCA在数据降维、可视化和特征提取上的优势,并提供了Python实现示例。PCA广泛应用在图像压缩、机器学习和数据分析等领域,但降维后可能损失解释性,需注意选择合适主成分数量及数据预处理。
|
4天前
|
vr&ar Python
Python自激励阈值自回归(SETAR)、ARMA、BDS检验、预测分析太阳黑子时间序列数据
Python自激励阈值自回归(SETAR)、ARMA、BDS检验、预测分析太阳黑子时间序列数据
11 0
|
4天前
|
Python
Python随机波动性SV模型:贝叶斯推断马尔可夫链蒙特卡洛MCMC分析英镑/美元汇率时间序列数据|数据分享
Python随机波动性SV模型:贝叶斯推断马尔可夫链蒙特卡洛MCMC分析英镑/美元汇率时间序列数据|数据分享
10 0
|
4天前
|
机器学习/深度学习 Python
【Python机器学习专栏】时间序列数据的特征工程
【4月更文挑战第30天】本文探讨了时间序列数据的特征工程,强调其在捕捉季节性、揭示趋势、处理异常值和提升模型性能中的重要性。介绍了滞后特征、移动窗口统计特征、时间戳特征、频域特征和波动率特征等方法,并提供了Python实现示例。通过有效特征工程,可提高时间序列分析的准确性和预测可靠性。
|
4天前
|
机器学习/深度学习 计算机视觉 Python
【Python 机器学习专栏】图像数据的特征提取与预处理
【4月更文挑战第30天】本文探讨了图像数据的特征提取与预处理在机器学习中的重要性。图像数据具有大容量、信息丰富和冗余性高的特点。特征提取涉及颜色、纹理和形状特征;预处理包括图像增强、去噪和分割。Python的OpenCV和Scikit-image库在处理这些任务时非常有用。常见的特征提取方法有统计、变换和基于模型的方法,而预处理应注意保持图像真实性、适应性调整及验证评估。有效的特征提取和预处理能提升模型性能,Python工具使其更高效。
|
9天前
|
存储 人工智能 数据处理
Python:编程的艺术与科学的完美交融
Python:编程的艺术与科学的完美交融
14 1
|
4天前
|
测试技术 调度 索引
python编程中常见的问题
【4月更文挑战第23天】
17 2