玩转数据分析——快速掌握清洗代码！！！-阿里云开发者社区

玩转数据分析——快速掌握清洗代码！！！

2022-08-12 334

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 玩转数据分析——快速掌握清洗代码！！！

数据是机器学习的燃料，数据预处理就是为机器学习模型提供好燃料，数据好，模型才能跑得更带劲。数据预处理的主要内容包括数据清洗、数据集成、数据变换、数据规约。

   而数据清洗是一项复杂且繁琐的工作，是一个分析项目中最占时间且最重要的步骤。数据清洗是在获取到原始数据后，可能其中的很多数据都不符合数据分析的要求，那么就需要按照步骤进行处理。数据清洗的结果是对各种脏数据进行对应方式的处理，得到标准的、干净的、连续的数据，提供给数据统计、数据挖掘等使用。
   数据清洗主要包括删除重复值、统一规格、修正逻辑、数据压缩、补足缺失/空值、丢弃异常值等，它的目的在于提高数据的质量问题即解决数据的完整性、唯一性、权威性、合法性和一致性。

那么，如何快速掌握“清洗代码”，得到符合要求的干净数据呢？

大家首先要知道数据分析分为哪四大步骤？

    1.数据探索分析

    2.重复数据处理

    3.缺失数据处理

    4.异常数据处理

1.数据探索分析

  分析数据的规律，通过一定的方法统计数据， 通过统计结果判断数据是否存在缺失、异常等情况。

小技巧：

通过最小值判断数量等是否包含缺失数据，如果最小值为0，那这部分数据就是缺失数据，通过判断数据是否存在空值来判断数据是否缺失

2.重复数据处理

  对于重复的数据删除即可。

  常用方法：

drop_duplicates方法
keep=’first’ 删除除第一次出现之外的重复项
keep=’last’ 删除除最后一次出现之外的重复项
keep=False 删除所有重复项

3.缺失数据处理

如果比例高于30%，则可以选择放弃这个指标，删除即可
如果低于30%，则可以将这部分的缺失数据进行填充，以0或均值填充。

4.异常数据处理

异常数据需要对具体业务进行具体分析和处理，对于不符合常理的数据可进
分析删除。

例如，性别男或女，如果数据中存在其他值

例如，年龄超出了正常年龄范围，那么这些都属于异常数据。

常用思路：保留、删除、替换

玩转数据分析——快速掌握清洗代码！！！

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

玩转数据分析——快速掌握 清洗代码！！！

热门文章

最新文章

相关课程

相关电子书

相关实验场景

玩转数据分析——快速掌握清洗代码！！！