python航空公司1949-1960年的乘客人数-数据特征分析(一)

简介: python航空公司1949-1960年的乘客人数-数据特征分析

实验目的  

1、应用数据探索的方法完成案例的质量探索和规律探索;

2、掌握频数分布、集中和离散趋势、偏度和峰度等图表绘制方法或统计方法。

实验任务与要求

任务:根据提供的数据,对航空公司1949-1960年的乘客人数完成数据探索任务。

要求:

1、根据数据集找出这12年来客运人数的趋势;

2、找出乘客人数的季节趋势;

3、对乘客人数做简单的描述性分析。

实验原理(技术)

应用数据探索的方法进行案例分析,包括数值统计与图表绘制等探索方法。

异常值分析是检验数据是否有录入错误以及含有不合常理的数据。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点的分析。异常值分析方法主要有:简单统计量分析、3σ原则、箱型图分析。

箱形图:依据实际数据绘制,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据分布的本来面貌。

实验记载  

步骤(算法、程序)、数据记录与处理、结果分析等

1.查看数据

1.  使用pandas导入数据

1. import pandas as pd
2. import numpy as np
3. 
4. data = pd.read_excel('实验1data.xlsx') # 以年份为索引
5. print(data.shape)
6. # 观察各列数据
7. print(data.head())

 

 

2.  观察数据基本信息,对数据进行统计量描述,同时用相关函数进行数据的统计与查询

1. print('-------------------------统计量描述-------------------------')
2. explore = data.describe(percentiles=[], include='all').T # percentiles参数是指定计算多少的分位数表
3. explore['null'] = len(data) - explore['count'] # describe()函数自动计算非空值数,需要手动计算空值数
4. print(explore.head())
5. explore = explore[['null', 'max', 'min','mean']]
6. explore.columns = [u'空值数', u'最大值', u'最小值',u'平均值']  # 表头重命名
7. # explore.to_csv('统计量描述.csv')  # 保存结果
8. print('--------------------------空值统计--------------------------')
9. print(data.isnull().sum())

 

describe()函数对数据进行描述性分析

可以看到每年每月数据的分布情况

 

1. data.describe()
2. # 查看数据的基本描述

 

2.整理数据

将“year”字段作为索引

 

1. # 设置year为索引
2. data1=data.set_index('year')
3. data1

 

3.画箱型图

观察数据异常状态,数据没有异常

 

1. import matplotlib.pyplot as plt
2. 
3. fig = plt.figure(figsize=(5,4))  # 设置画布大小
4. plt.rcParams['font.sans-serif'] = ['SimHei']  # 黑体
5. plt.rcParams['axes.unicode_minus'] = False    # 解决无法显示符号的问题
6. 
7. data.plot.box(title='箱型图')
8. plt.xlabel('月份')
9. plt.ylabel('数量')
10. 
11. # 没有异常值

1. import matplotlib.pyplot as plt
2. 
3. fig = plt.figure(figsize=(5,4))  # 设置画布大小
4. plt.rcParams['font.sans-serif'] = ['SimHei']  # 黑体
5. plt.rcParams['axes.unicode_minus'] = False    # 解决无法显示符号的问题
6. 
7. data.boxplot(notch=True,showmeans=True,patch_artist=True) 
8. plt.title('箱型图')
9. plt.xlabel('月份')
10. plt.ylabel('数量')
11. plt.grid(False)

 

 


相关文章
|
30天前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
1月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
1018 1
|
1月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
346 0
|
1月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
1月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
28天前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
29天前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
2月前
|
缓存 监控 算法
苏宁item_get - 获得商品详情接口深度# 深度分析及 Python 实现
苏宁易购item_get接口可实时获取商品价格、库存、促销等详情,支持电商数据分析与竞品监控。需认证接入,遵守调用限制,适用于价格监控、销售分析等场景,助力精准营销决策。(238字)

推荐镜像

更多