数据异常值处理-下-阿里云开发者社区

数据异常值处理-下

2023-04-23 210

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据异常值处理-下

大家好啊，今天承接上篇给大家介绍一下数据异常值相关知识，在原理这块需要点数学基础。

上篇文章传送门

最早的定义由 Hawkins 提出：“异常是在数据集中与众不同的数据，使人们怀疑这些数据并非随机产生的，而是产生于完全不同的机制；常见称呼由孤立点、离群点、噪音等。

以我近期操作的气象数据为例（见下图）

在日降雨量中出现32766数值，结合数据自带相关特征值说明，很容易理解32766不可能代表实际意义；

除说明外，还需从数据整体上判断数值是否存在异常（如x地x年x天出现百年一遇暴雨事件，会让该值偏离其他数据，但此时数据是真实的，这时需对数据进行异常值检测。）

该方法需要一定经验，可通过简单查看最值判断是否在合理方法（亦有帖子写为：业务经验）

（三倍标准差）

3σ原理

利用excel计算数据平均值，标准差，3倍标准差等，判断数据范围是否在值域即可；可先判最值是否在该值域，从而快速筛选异常值

在Excel中使用3σ原则

前提：服从正态分布（也称高斯分布），公式为

xi是一个数据点，μ是所有点xi的平均值，δ是所有点xi的标准偏差

原理：
异常值是分布尾部的数据点，因此远离数据的平均值。

距离的远近取决于使用公式计算的归一化数据点z i的设定阈值Zthr（通常z-score绝对值＞3则被认为异常值）

Zthr值一般设置为2.5、3.0和3.5

Spss操作示意图

Spss结果图

摘自网络

优点：数据无任何限制性要求如正态分布等；识别依赖于上四分数和下四分位数，因此异常值极其偏差不会影响异常值识别的上下边缘，优于3倍标准差

操作：使用excel/spss均可，注意离群值的标注