IQR法(四分位距法)

简介: IQR法(四分位距法)

IQR法,即四分位距法,是一种用于识别异常值的统计技术。它基于数据的分位数,特别是第一四分位数(Q1)和第三四分位数(Q3),以及它们之间的距离(即四分位距,IQR)。IQR是描述统计学中衡量数据分散程度的一个方法,它表示在不考虑数据极端值的情况下,数据集中中间50%的数据的范围。

四分位距(IQR)的计算步骤如下:

  1. 将数据集按照数值大小排序。
  2. 计算第一四分位数(Q1),即数据集中25%的数据点的小值。
  3. 计算第三四分位数(Q3),即数据集中75%的数据点的小值。
  4. 计算IQR:( IQR = Q3 - Q1 )。

识别异常值:

一旦有了IQR,就可以设定异常值的阈值,通常使用以下规则:

  • 低于 ( Q1 - 1.5 \times IQR ) 或高于 ( Q3 + 1.5 \times IQR ) 的数据点被认为是异常值。

这个1.5的系数是一个常用的选择,但有时也会根据具体情况使用不同的系数,例如1.0或3.0。

IQR法的优点:

  • 不受极端值的影响,因为它使用的是分位数而不是平均值。
  • 容易理解和计算。
  • 对于不对称数据分布,它通常比基于标准差的方法更有效。

IQR法的缺点:

  • 对于具有重尾分布的数据,可能会将实际的正常值误判为异常值。
  • 在数据集非常小的情况下,四分位数可能会受到少数数据点的强烈影响。

应用示例:

假设有一个数据集 [12, 15, 18, 20, 22, 25, 27, 100]:

  1. 排序后的数据集:[12, 15, 18, 20, 22, 25, 27, 100]。
  2. ( Q1 = 18 )(数据集中第50%的数据点小值)。
  3. ( Q3 = 25 )(数据集中第75%的数据点小值)。
  4. ( IQR = Q3 - Q1 = 25 - 18 = 7 )。
  5. 异常值阈值:( Q1 - 1.5 \times IQR = 18 - 1.5 \times 7 = 5.5 ) 和 ( Q3 + 1.5 \times IQR = 25 + 1.5 \times 7 = 38.5 )。
  6. 根据阈值,数据集中的100将被识别为异常值。

IQR法是一种非常实用的工具,可以帮助我们在数据清洗过程中识别和处理异常值。

相关文章
|
存储 数据挖掘 数据处理
Pandas中explode()函数的应用与实战
Pandas中explode()函数的应用与实战
347 0
|
机器学习/深度学习 数据可视化 算法
泰酷辣!探索七种常用的机器学习图型
泰酷辣!探索七种常用的机器学习图型
1118 0
|
数据可视化
如何使用四分位距方法来识别数据中的异常值?
如何使用四分位距方法来识别数据中的异常值?
|
数据挖掘 Python
四分位距方法
四分位距方法
|
机器学习/深度学习 存储 算法
机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树(GBDT)、XGBoost、LightGBM、CatBoost
机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树(GBDT)、XGBoost、LightGBM、CatBoost
1033 0
|
资源调度
Z-Score方法
Z-Score方法
1268 2
|
人工智能 算法
算法金 | 平均数、众数、中位数、极差、方差,标准差、频数、频率 一“统”江湖
**统计学江湖概要** - **平均数(均值)**:数字的总和除以数量,代表集中趋势,如分赃时平均分配。 - **众数**:出现次数最多的数字,反映了最常见的值,如同一招式被频繁使用。 - **中位数**:排序后位于中间的值,反映数据的中心位置,如同武者武功的中等水平。 - **极差**:最大值减最小值,表示数据波动范围,类似武功最高与最低的差距。 - **方差**:衡量数据波动性,计算每个数值与均值差的平方和的平均数。 - **标准差**:方差的平方根,同单位的波动度量。 - **频数**:某个值出现的次数,如统计武器使用情况。 - **频率**:频数与总次数的比例,显示出现的相对频率。
446 2
算法金 | 平均数、众数、中位数、极差、方差,标准差、频数、频率 一“统”江湖
|
11月前
|
机器学习/深度学习 算法 TensorFlow
深度学习笔记(五):学习率过大过小对于网络训练有何影响以及如何解决
学习率是深度学习中的关键超参数,它影响模型的训练进度和收敛性,过大或过小的学习率都会对网络训练产生负面影响,需要通过适当的设置和调整策略来优化。
1718 0
深度学习笔记(五):学习率过大过小对于网络训练有何影响以及如何解决
|
数据可视化
IQR法的缺点
IQR法的缺点
334 1
|
机器学习/深度学习 文字识别 Linux
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 基于 Paddle Serving快速使用(服务化部署 - CentOS 7)
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 基于 Paddle Serving快速使用(服务化部署 - CentOS 7)
381 1
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 基于 Paddle Serving快速使用(服务化部署 - CentOS 7)