IQR法(四分位距法)

简介: IQR法(四分位距法)

IQR法,即四分位距法,是一种用于识别异常值的统计技术。它基于数据的分位数,特别是第一四分位数(Q1)和第三四分位数(Q3),以及它们之间的距离(即四分位距,IQR)。IQR是描述统计学中衡量数据分散程度的一个方法,它表示在不考虑数据极端值的情况下,数据集中中间50%的数据的范围。

四分位距(IQR)的计算步骤如下:

  1. 将数据集按照数值大小排序。
  2. 计算第一四分位数(Q1),即数据集中25%的数据点的小值。
  3. 计算第三四分位数(Q3),即数据集中75%的数据点的小值。
  4. 计算IQR:( IQR = Q3 - Q1 )。

识别异常值:

一旦有了IQR,就可以设定异常值的阈值,通常使用以下规则:

  • 低于 ( Q1 - 1.5 \times IQR ) 或高于 ( Q3 + 1.5 \times IQR ) 的数据点被认为是异常值。

这个1.5的系数是一个常用的选择,但有时也会根据具体情况使用不同的系数,例如1.0或3.0。

IQR法的优点:

  • 不受极端值的影响,因为它使用的是分位数而不是平均值。
  • 容易理解和计算。
  • 对于不对称数据分布,它通常比基于标准差的方法更有效。

IQR法的缺点:

  • 对于具有重尾分布的数据,可能会将实际的正常值误判为异常值。
  • 在数据集非常小的情况下,四分位数可能会受到少数数据点的强烈影响。

应用示例:

假设有一个数据集 [12, 15, 18, 20, 22, 25, 27, 100]:

  1. 排序后的数据集:[12, 15, 18, 20, 22, 25, 27, 100]。
  2. ( Q1 = 18 )(数据集中第50%的数据点小值)。
  3. ( Q3 = 25 )(数据集中第75%的数据点小值)。
  4. ( IQR = Q3 - Q1 = 25 - 18 = 7 )。
  5. 异常值阈值:( Q1 - 1.5 \times IQR = 18 - 1.5 \times 7 = 5.5 ) 和 ( Q3 + 1.5 \times IQR = 25 + 1.5 \times 7 = 38.5 )。
  6. 根据阈值,数据集中的100将被识别为异常值。

IQR法是一种非常实用的工具,可以帮助我们在数据清洗过程中识别和处理异常值。

相关文章
|
2月前
|
数据挖掘 Python
|
4月前
|
人工智能 算法
算法金 | 平均数、众数、中位数、极差、方差,标准差、频数、频率 一“统”江湖
**统计学江湖概要** - **平均数(均值)**:数字的总和除以数量,代表集中趋势,如分赃时平均分配。 - **众数**:出现次数最多的数字,反映了最常见的值,如同一招式被频繁使用。 - **中位数**:排序后位于中间的值,反映数据的中心位置,如同武者武功的中等水平。 - **极差**:最大值减最小值,表示数据波动范围,类似武功最高与最低的差距。 - **方差**:衡量数据波动性,计算每个数值与均值差的平方和的平均数。 - **标准差**:方差的平方根,同单位的波动度量。 - **频数**:某个值出现的次数,如统计武器使用情况。 - **频率**:频数与总次数的比例,显示出现的相对频率。
82 2
算法金 | 平均数、众数、中位数、极差、方差,标准差、频数、频率 一“统”江湖
wustojc2003求整数均值
wustojc2003求整数均值
53 0
|
数据格式
SPSS计算偏度、峰度、平均值、极值、中位数、标准差
本文介绍基于SPSS软件的经典统计学分析与偏度、峰度等常用统计学指标的计算方法~
4090 1
SPSS计算偏度、峰度、平均值、极值、中位数、标准差
|
数据挖掘 BI 定位技术
为什么中位数(大多数时候)比平均值好
为什么中位数(大多数时候)比平均值好
247 1
为什么中位数(大多数时候)比平均值好
|
数据处理
集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关
集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关
502 0
集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关
|
存储 调度 Python
泊松分布
泊松分布
213 0
泊松分布
L3-连续变量分布:均匀分布、指数分布、正态分布
L3-连续变量分布:均匀分布、指数分布、正态分布
L3-连续变量分布:均匀分布、指数分布、正态分布
C/C++编程题之取近似值
C/C++编程题之取近似值