python航空公司1949-1960年的乘客人数-数据特征分析(一)

简介: python航空公司1949-1960年的乘客人数-数据特征分析

实验目的  

1、应用数据探索的方法完成案例的质量探索和规律探索;

2、掌握频数分布、集中和离散趋势、偏度和峰度等图表绘制方法或统计方法。

实验任务与要求

任务:根据提供的数据,对航空公司1949-1960年的乘客人数完成数据探索任务。

要求:

1、根据数据集找出这12年来客运人数的趋势;

2、找出乘客人数的季节趋势;

3、对乘客人数做简单的描述性分析。

实验原理(技术)

应用数据探索的方法进行案例分析,包括数值统计与图表绘制等探索方法。

异常值分析是检验数据是否有录入错误以及含有不合常理的数据。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点的分析。异常值分析方法主要有:简单统计量分析、3σ原则、箱型图分析。

箱形图:依据实际数据绘制,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据分布的本来面貌。

实验记载  

步骤(算法、程序)、数据记录与处理、结果分析等

1.查看数据

1.  使用pandas导入数据

1. import pandas as pd
2. import numpy as np
3. 
4. data = pd.read_excel('实验1data.xlsx') # 以年份为索引
5. print(data.shape)
6. # 观察各列数据
7. print(data.head())

 

 

2.  观察数据基本信息,对数据进行统计量描述,同时用相关函数进行数据的统计与查询

1. print('-------------------------统计量描述-------------------------')
2. explore = data.describe(percentiles=[], include='all').T # percentiles参数是指定计算多少的分位数表
3. explore['null'] = len(data) - explore['count'] # describe()函数自动计算非空值数,需要手动计算空值数
4. print(explore.head())
5. explore = explore[['null', 'max', 'min','mean']]
6. explore.columns = [u'空值数', u'最大值', u'最小值',u'平均值']  # 表头重命名
7. # explore.to_csv('统计量描述.csv')  # 保存结果
8. print('--------------------------空值统计--------------------------')
9. print(data.isnull().sum())

 

describe()函数对数据进行描述性分析

可以看到每年每月数据的分布情况

 

1. data.describe()
2. # 查看数据的基本描述

 

2.整理数据

将“year”字段作为索引

 

1. # 设置year为索引
2. data1=data.set_index('year')
3. data1

 

3.画箱型图

观察数据异常状态,数据没有异常

 

1. import matplotlib.pyplot as plt
2. 
3. fig = plt.figure(figsize=(5,4))  # 设置画布大小
4. plt.rcParams['font.sans-serif'] = ['SimHei']  # 黑体
5. plt.rcParams['axes.unicode_minus'] = False    # 解决无法显示符号的问题
6. 
7. data.plot.box(title='箱型图')
8. plt.xlabel('月份')
9. plt.ylabel('数量')
10. 
11. # 没有异常值

1. import matplotlib.pyplot as plt
2. 
3. fig = plt.figure(figsize=(5,4))  # 设置画布大小
4. plt.rcParams['font.sans-serif'] = ['SimHei']  # 黑体
5. plt.rcParams['axes.unicode_minus'] = False    # 解决无法显示符号的问题
6. 
7. data.boxplot(notch=True,showmeans=True,patch_artist=True) 
8. plt.title('箱型图')
9. plt.xlabel('月份')
10. plt.ylabel('数量')
11. plt.grid(False)

 

 


相关文章
|
3天前
|
机器学习/深度学习 JSON API
【Python奇迹】FastAPI框架大显神通:一键部署机器学习模型,让数据预测飞跃至Web舞台,震撼开启智能服务新纪元!
【8月更文挑战第16天】在数据驱动的时代,高效部署机器学习模型至关重要。FastAPI凭借其高性能与灵活性,成为搭建模型API的理想选择。本文详述了从环境准备、模型训练到使用FastAPI部署的全过程。首先,确保安装了Python及相关库(fastapi、uvicorn、scikit-learn)。接着,以线性回归为例,构建了一个预测房价的模型。通过定义FastAPI端点,实现了基于房屋大小预测价格的功能,并介绍了如何运行服务器及测试API。最终,用户可通过HTTP请求获取预测结果,极大地提升了模型的实用性和集成性。
11 1
|
4天前
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。
|
4天前
|
数据采集 Java PHP
使用Python+requests简单实现模拟登录以及抓取接口数据
本文通过Python的requests库演示了如何实现模拟登录和抓取接口数据的过程,包括设置请求头、发送POST请求进行登录以及使用登录后的会话进行GET请求获取数据。
13 1
|
1天前
|
消息中间件 SQL Java
实时数仓 Hologres产品使用合集之如何用python将kafka数据写入
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
3天前
|
JSON 缓存 安全
Python pickle 二进制序列化和反序列化 - 数据持久化
Python pickle 二进制序列化和反序列化 - 数据持久化
9 0
|
机器学习/深度学习 算法 数据挖掘
一文归纳Python特征生成方法(全)
创造新的特征是一件十分困难的事情,需要丰富的专业知识和大量的时间。机器学习应用的本质基本上就是特征工程。 ——Andrew Ng
|
7天前
|
算法 程序员 开发工具
百万级Python讲师又一力作!Python编程轻松进阶,豆瓣评分8.1
在学习Python的旅程中你是否正在“绝望的沙漠”里徘徊? 学完基础教程的你,是否还在为选择什么学习资料犹豫不决,不知从何入手,提高自己?
百万级Python讲师又一力作!Python编程轻松进阶,豆瓣评分8.1
|
5天前
|
算法 程序员 开发工具
百万级Python讲师又一力作!Python编程轻松进阶,豆瓣评分8.1
在学习Python的旅程中你是否正在“绝望的沙漠”里徘徊? 学完基础教程的你,是否还在为选择什么学习资料犹豫不决,不知从何入手,提高自己?
|
2天前
|
数据采集 存储 人工智能
掌握Python编程:从基础到进阶的实用指南
【8月更文挑战第17天】 本文旨在通过浅显易懂的语言和实际案例,为初学者和有一定基础的开发者提供一条清晰的Python学习路径。我们将从Python的基本语法入手,逐步深入到面向对象编程、数据科学应用及网络爬虫开发等高级主题。每个部分都配备了代码示例和实操建议,确保读者能够将理论知识转化为实际能力。无论你是编程新手,还是希望提升Python技能的开发者,这篇文章都将为你打开一扇通往高效编程世界的大门。
7 2
|
7天前
|
Python
python Process 多进程编程
python Process 多进程编程
17 1