在数据清洗过程中,确定哪些数据是异常值通常涉及以下几种方法:
统计分析:常用的方法包括计算数据的平均值和标准差,然后使用3σ准则(即三个标准差原则),认为数据点在均值的±3个标准差范围内为正常值,超出这个范围的点可能是异常值。例如,如果一个数据集服从正态分布,那么约99.7%的数据点应该落在均值的±3σ范围内,超出这个范围的点可以视为异常值 。
箱线图(Boxplot):箱线图是一种非常直观的图形化方法,用于识别数据中的异常值。箱线图通过四分位数来展示数据的分布,通常位于箱形图外的点被认为是异常值 。
Z-Score方法:Z-Score表示的是一个数据点距离数据集平均值的标准差数目。一般情况下,Z-Score的阈值设为3(或根据具体情况调整),超过这个阈值的数据点被认为是异常值 。
IQR法(四分位距法):通过计算数据的第一四分位数(Q1)和第三四分位数(Q3),然后计算四分位距(IQR = Q3 - Q1)。通常认为,小于 Q1 - 1.5 IQR 或大于 Q3 + 1.5 IQR 的数据点是异常值 。
可视化技术:除了箱线图,还可以使用直方图、散点图等可视化工具来辅助识别异常值。这些图表可以帮助我们直观地看到数据的分布情况,从而更容易地发现异常值 。
领域知识:在某些情况下,异常值的确定也需要依赖于对数据背景和领域的深入理解。例如,在特定行业或研究领域中,可能会有基于专业知识的异常值识别标准 。
自动化异常值检测算法:如DBSCAN聚类、孤立森林(Isolation Forest)、One-Class SVM等机器学习算法也可以用来检测异常值 。
在确定异常值时,应该综合考虑数据的分布特性、数据的业务背景以及异常值可能带来的影响。有时候,异常值可能代表了重要的、有价值的信息,因此在处理异常值时应该谨慎,避免丢失重要数据。在处理异常值之后,通常需要对数据进行后续的分析,以验证处理的效果和数据的质量 。