利用Pandas对小费数据集进行数据预处理实战(附源码)

简介: 利用Pandas对小费数据集进行数据预处理实战(附源码)

需要源码请点赞关注收藏后评论区留言私信~~~

下面将我们利用小费数据集进行随机修改后并且进行常见的预处理操作

首先导入模块

然后获取数据 并显示前五行

fdata=pd.read_excel('tips_mod.xls')
fdata.head()

然后调用describe函数查看数据的描述信息

通过结果可以看出 共有244条记录,通过每个字段的均值和方差,看不出数据有异常

接下来显示聚餐时间段time的不重复值

# 显示用餐时间time的不重复值
fdata['聚餐时间段'].unique()

从结果可以看出有两个拼写错误 Diner和Dier

接下来修改拼写错误的字段值

# 修改拼写错误的字段
fdata.ix[fdata['聚餐时间段']=='Diner','time']='Dinner'
fdata.ix[fdata['聚餐时间段']=='Dier','time']='Dinner'
fdata['聚餐时间段'].unique()

接下来检测数据中的缺失值

# 检测数据中的缺失值
fdata.isnull().sum()

然后删除一行内有两个缺失值的数据

# 删除一行内有两个缺失值的数据
fdata.dropna(thresh=6,inplace=True)
fdata.isnull().sum()

然后删除sex或者time为空的数据

# 删除性别或者聚餐时间为空的行
fdata.dropna(subset=['性别','聚餐时间段'],inplace=True)
fdata.isnull().sum()

最后对剩余有空缺的数据用平均值替换

# 对剩余空缺的数据用平均值替代
fdata.fillna(fdata.mean(),inplace=True)
fdata.isnull().sum()

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
5月前
|
Python
Pandas和pyecharts绘制某天多省区连续确诊病例无新增天数的玫瑰图实战(附源码)
Pandas和pyecharts绘制某天多省区连续确诊病例无新增天数的玫瑰图实战(附源码)
55 0
|
5月前
|
存储 JSON 关系型数据库
Pandas载入txt、csv、Excel、JSON、数据库文件讲解及实战(超详细 附源码)
Pandas载入txt、csv、Excel、JSON、数据库文件讲解及实战(超详细 附源码)
66 0
|
9天前
|
数据可视化 Python
如何在Pandas中对数据集进行多级分组并进行聚合计算?
在Pandas中进行多级分组与聚合计算的步骤包括导入库(如pandas和matplotlib),准备数据集,使用`groupby()`方法分组,应用聚合函数(如`sum()`、`mean()`)及可视化结果。
20 11
|
11天前
|
数据采集 机器学习/深度学习 数据可视化
《Pandas 简易速速上手小册》第10章:Pandas 实战案例(2024 最新版)
《Pandas 简易速速上手小册》第10章:Pandas 实战案例(2024 最新版)
25 2
|
14天前
|
供应链 搜索推荐 数据挖掘
Pandas实战案例:电商数据分析的实践与挑战
【4月更文挑战第16天】本文通过一个电商数据分析案例展示了Pandas在处理销售数据、用户行为分析及商品销售趋势预测中的应用。在数据准备与清洗阶段,Pandas用于处理缺失值、重复值。接着,通过用户购买行为和商品销售趋势分析,构建用户画像并预测销售趋势。实践中遇到的大数据量和数据多样性挑战,通过分布式计算和数据标准化解决。未来将继续深入研究Pandas与其他先进技术的结合,提升决策支持能力。
|
14天前
|
存储 数据可视化 数据挖掘
实战案例:Pandas在金融数据分析中的应用
【4月更文挑战第16天】本文通过实例展示了Pandas在金融数据分析中的应用。案例中,一家投资机构使用Pandas加载、清洗股票历史价格数据,删除无关列并重命名,将日期设为索引。接着,数据被可视化以观察价格走势,进行基本统计分析了解价格分布,以及计算移动平均线来平滑波动。Pandas的便捷功能在金融数据分析中体现出高效率和实用性。
|
4月前
|
数据挖掘 数据处理 Python
pandas对波形异常数据处理实战
做数据分析很大一部分工作量都是在对数据处理,因为数据来源的质量问题,不能保证所有的数据都是正常的。对于数据分析和处理来说pandas无疑是常用的利器。下面通过一个实例来用pandas对波形异常数据进行实战处理。
30 1
|
4月前
|
XML JSON 数据格式
Python Pandas PK esProc SPL,谁才是数据预处理王者?
Python Pandas PK esProc SPL,谁才是数据预处理王者?
|
5月前
|
存储 NoSQL 数据挖掘
Pandas 数据类型概述与转换实战
Pandas 数据类型概述与转换实战
|
5月前
|
存储 并行计算 数据挖掘
利用Numpy和Pandas对地铁客量数据进行实战分析(附源码)
利用Numpy和Pandas对地铁客量数据进行实战分析(附源码)
34 0