数据是机器学习的燃料,数据预处理就是为机器学习模型提供好燃料,数据好,模型才能跑得更带劲。数据预处理的主要内容包括数据清洗、数据集成、数据变换、数据规约。
而数据清洗是一项复杂且繁琐的工作,是一个分析项目中最占时间且最重要的步骤。数据清洗是在获取到原始数据后,可能其中的很多数据都不符合数据分析的要求,那么就需要按照步骤进行处理。数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。
数据清洗主要包括删除重复值、统一规格、修正逻辑、数据压缩、补足缺失/空值、丢弃异常值等,它的目的在于提高数据的质量问题即解决数据的完整性、唯一性、权威性、合法性和一致性。
那么,如何快速掌握“清洗代码”,得到符合要求的干净数据呢?
大家首先要知道数据分析分为哪四大步骤?
1.数据探索分析
2.重复数据处理
3.缺失数据处理
4.异常数据处理
1.数据探索分析
分析数据的规律,通过一定的方法统计数据, 通过统计结果判断数据是否存在缺失、异常等情况。
小技巧:
通过最小值判断数量等是否包含缺失数据,如果最小值为0,那这部分数据就是缺失数据, 通过判断数据是否存在空值来判断数据是否缺失
2.重复数据处理
对于重复的数据删除即可。
常用方法:
drop_duplicates方法
keep=’first’ 删除除第一次出现之外的重复项
keep=’last’ 删除除最后一次出现之外的重复项
keep=False 删除所有重复项
3.缺失数据处理
如果比例高于30%, 则可以选择放弃这个指标,删除即可
如果低于30%,则可以将这部分的缺失数据进行填充,以0或均值填充。
4.异常数据处理
异常数据需要对具体业务进行具体分析和处理,对于不符合常理的数据可进
分析删除。
例如,性别男或女,如果数据中存在其他值
例如,年龄超出了正常年龄范围,那么这些都属于异常数据。
常用思路:保留、删除、替换