IQR法,即四分位距法,是一种用于识别异常值的统计技术。它基于数据的分位数,特别是第一四分位数(Q1)和第三四分位数(Q3),以及它们之间的距离(即四分位距,IQR)。IQR是描述统计学中衡量数据分散程度的一个方法,它表示在不考虑数据极端值的情况下,数据集中中间50%的数据的范围。
四分位距(IQR)的计算步骤如下:
- 将数据集按照数值大小排序。
- 计算第一四分位数(Q1),即数据集中25%的数据点的小值。
- 计算第三四分位数(Q3),即数据集中75%的数据点的小值。
- 计算IQR:( IQR = Q3 - Q1 )。
识别异常值:
一旦有了IQR,就可以设定异常值的阈值,通常使用以下规则:
- 低于 ( Q1 - 1.5 \times IQR ) 或高于 ( Q3 + 1.5 \times IQR ) 的数据点被认为是异常值。
这个1.5的系数是一个常用的选择,但有时也会根据具体情况使用不同的系数,例如1.0或3.0。
IQR法的优点:
- 不受极端值的影响,因为它使用的是分位数而不是平均值。
- 容易理解和计算。
- 对于不对称数据分布,它通常比基于标准差的方法更有效。
IQR法的缺点:
- 对于具有重尾分布的数据,可能会将实际的正常值误判为异常值。
- 在数据集非常小的情况下,四分位数可能会受到少数数据点的强烈影响。
应用示例:
假设有一个数据集 [12, 15, 18, 20, 22, 25, 27, 100]:
- 排序后的数据集:[12, 15, 18, 20, 22, 25, 27, 100]。
- ( Q1 = 18 )(数据集中第50%的数据点小值)。
- ( Q3 = 25 )(数据集中第75%的数据点小值)。
- ( IQR = Q3 - Q1 = 25 - 18 = 7 )。
- 异常值阈值:( Q1 - 1.5 \times IQR = 18 - 1.5 \times 7 = 5.5 ) 和 ( Q3 + 1.5 \times IQR = 25 + 1.5 \times 7 = 38.5 )。
- 根据阈值,数据集中的100将被识别为异常值。
IQR法是一种非常实用的工具,可以帮助我们在数据清洗过程中识别和处理异常值。