Pandas之四缺失数据处理

2021-09-16 237

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： pandas在处理缺失数据的几种方法，删除、填充和判断

Pandas之四缺失数据处理

在实际的数据处理过程当中，不可避免地会遇到有部分数据缺失。比如在分析股票行情数据时，有部分股票有时会停牌就会出现行情数据缺失的情况。

一般在pandas中将缺失值以np.nan来表示，其好处是会在计算时忽略，同时其类型是float，不影响总体数据计算。数据分析时就要处理这些缺失值，pandas提供了缺失数据处理方法，包括删除缺失值、缺失值填充、缺失值判断等。

首先在前文数据上，生成新的dataframe：

在这里插入图片描述

删除缺失值

使用.dropna删除缺失值，可以针对整个dataframe，也可以针对某列或某行

常用参数how：any指只要某行存在缺失值，即将该行删除；all指某行全部都是缺失值才删除。

如下图，指定为all时，只删除了2021-09-07行的数据

在这里插入图片描述

将E列的缺失数据删除掉

在这里插入图片描述

将2021-09-03的缺失数据删除掉

在这里插入图片描述

使用.fillna为缺失值填充数据，可以为dataframe所有缺失值填充数据，也可以为某行或某列填充数据

在这里插入图片描述

选取dataframe中的E列，将其中的缺失值填充为9

在这里插入图片描述

将dataframe中2021-09-07行的缺失值以9来填充

在这里插入图片描述

pandas提供.isna对缺失值进行判断，若是缺失值返回为True，否则返回False。可以对dataframe所有缺失值进行判断，也可以针对某行或某列做判断

在这里插入图片描述

针对dataframe中的E列数据做缺失值判断

在这里插入图片描述

选取2021-09-01与2021-09-03之间的数据进行缺失值判断

欢迎关注微信公众号：数据研发技术，收获各类数据研发技术干货