Outlier Detection Methods|学习笔记

简介: 快速学习 Outlier Detection Methods

开发者学堂课程【高校精品课北京理工大学数据仓库与数据挖掘(下)Outlier Detection Methods】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/1041/detail/15654


Outlier Detection Methods


内容介绍:

一、异常检测方法分类

二、基于监督的异常检测方法

三、基于无监督的异常检测方法

四、基于半监督的异常检测算法

五、基于统计的异常检测

六、基于临近性的异常检测方法

七、基于聚类的异常检测方法


本课程开始数据仓库与数据挖掘的学习。主要介绍异常检测方法概述。


一、异常检测方法分类

对于异常检测算法来说,可以根据在异常检测时是否需要使用有标记的数据,将异常检测方法划分为基于监督的,基于半监督的和基于无监督的异常检测方法。

而根据对正常数据的假设以及对异常数据的假设,可以将异常检测方法划分为基于统计的,基于邻近性的,基于聚类的异常检测方法。

 

二、基于监督的异常检测方法

1.原理

首先来看一下,基于监督的异常检测方法。基于监督的异常检测方法,主要是将异常检测问题转换成为一个分类问题,将有标记的数据,用作训练集和测试集,构建一个分类模型,对未标记的数据进行预测,判断数据对象的类别为正常或异常。

2.面临挑战

对于基于监督的异常检测方法来说,它主要面临两点挑战。

(1)、类别不平衡性

第一点就是指的类别不平衡性。因为在有标记的数据中,异常占的比例是非常非常低的,因此为正事例的数据会远远的小于为负事例的数据。

(2)、尽可能识别所有异常

第二个挑战就是基于监督的异常检测算法,要求尽可能的去识别所有的异常,因为在这样的一个问题中,将一个异常对象判别为一个正常对象的危害,是要远远大于,将一个正常对象判别成为一个异常对象的危害,因此,对于召回率的要求就会更高一些。


三、基于无监督的异常检测方法

1.原理

再来看一下基于无监督的异常检测方法。基于无监督的异常检测方法中,假设可以将数据划分成为若干个蔟。那么位于大蔟中的这些数据,它指的是行为比较正常的数据。如果一个数据对象离所有的蔟都比较远,那么认为这样的一个数据对象就是异常数据。

2.缺点

基于无监督的异常检测方法来说,它的缺点主要是,首先这些方法它是不能够识别群体异常的,因为往往根据判断数据对象是否离各个蔟的距离,来判断这个对象是否是异常对象。

其次,由于正常数据的行为的多样性,那么基于无监督的异常检测方法,它可能会具有比较高的错误的正利率,在这种情况下,它依然可能会漏掉很多异常。

在基于无监督的异常检测方法中,大部分方法都是基于聚类算法的使用,聚类算法来进行异常检测又可能存在两个问题,第一个问题就是很难将噪音和异常进行区分。第二个问题就是它的代价比较高,它首先要进行聚类,然后再进行日常识别。


四、基于半监督的异常检测算法

在基于半监督的异常检测算法中,数据有可能会标记为全部是正常数据,也有可能会标记一小部分异常数据。

如果数据标记的是正常数据,那么可以利用这些有标记的正常数据和这些正常数据比较接近的数据,把它们作为训练集,用来代表正常数据,根据正常数据,可以对正常数据建模,然后判断数据对象和这个正常模型是否相符,如果不符合这个正常模型,就认为这个数据对象是异常的。

对于第二种情况,如果数据集中仅仅标注了少量的异常数据,这个时候仅靠这些标记的异常数据是不能够进行异常识别的,往往会需要借助无监督的异常检测的方法来进行异常识别。


五、基于统计的异常检测

1.原理

再来看一下基于统计的方法。在基于统计的异常检测中,一般假设数据是符合某个统计分布的。可以计算每一个数据对象属于这个分布的概率,如果概率比较低,那么认为这个数据对象就是异常的。

对于基于统计的异常检测方法来说,它主要包含有参的方法和无参的方法。

2.例子

比如说像下图所展示的这个数据集,可以假设数据分布是符合高斯分布的。通过数据,可以估算高斯分布的参数,在得到高斯分布模型参数之后,可以利用概率密度去计算每一个数据点,由这个模型产生的概率,比如说像位于 r 区域的两个数据对象,它由这个模型产生的概率比较低,那么位于 r 区域的这两个数据对象就可以判定为是异常的对象。

图片1.png

六、基于临近性的异常检测方法

再来看一下基于临近性的异常检测方法。基于临近性的异常检测方法,主要是考虑这个数据对象的引进性,如果一个数据对象的邻近性和数据集中,大部分数据对象的邻近性差异性比较大,认为这个数据对象就是异常的。

对于基于临近性的异常检测方法,主要包含两种,一种是基于距离的异常检测方法,一种是基于密度的异常检测方法。


七、基于聚类的异常检测方法

再来看一下基于聚类的异常检测方法。基于聚类的异常检测方法,主要是根据聚类算法,将数据划分为不同的蔟。在基于聚类的异常检测算法中,如果一个对象属于的蔟比较大,那就认为这个数据对象是正常的,如果数据位于一个比较小或者稀疏的蔟,甚至这个数据对象不属于任一蔟,认为这个数据对象就是异常的。

图片2.png

关于异常检测算法的概述就向大家介绍到这里。

 

相关文章
|
Java Spring 容器
Spring系列文章:Bean的获取⽅式
Spring系列文章:Bean的获取⽅式
301 0
|
测试技术 API 开发者
使用 Playwright 脚本录制简化自动化测试:完全指南
Playwright提供了一种脚本录制功能,帮助开发者通过交互式操作自动生成测试脚本,提升测试效率。使用Playwright的命令行工具`codegen`,如`playwright codegen python <url>`,可以记录浏览器操作并生成Python测试脚本。生成的脚本使用Playwright API模拟用户交互,如`page.click()`和`page.fill()`。这种方法简化了自动化测试脚本的编写,促进了测试流程的加速。
|
12月前
|
SQL Java 数据库连接
JavaWeb基础3——Maven基础&MyBatis
构建工具Maven、Maven安装配置、基本使用、IDEA使用Maven、依赖管理、插件、Mybatis、核心配置文件mybatis-config.xml、Mapper代理开发、配置文件实现增删改查、Mybatis参数传递、注解实现增删改查
JavaWeb基础3——Maven基础&MyBatis
|
域名解析 网络协议 安全
【域名解析DNS专栏】云服务中的DNS解析服务比较:阿里云、AWS、Azure大PK
【5月更文挑战第23天】此对比分析探讨了阿里云DNS、AWS Route 53和Azure DNS的服务特点。阿里云DNS以其智能解析和IPv6支持脱颖而出,适合中国地区用户;AWS Route 53凭借其强大的路由策略和与AWS生态的深度集成吸引高级用户;Azure DNS则以简洁管理和DNSSEC安全支持见长,与Azure平台集成良好。选择取决于具体需求,如功能、易用性、性能、安全性和成本。
656 1
【域名解析DNS专栏】云服务中的DNS解析服务比较:阿里云、AWS、Azure大PK
|
存储 缓存 移动开发
【C语言基础篇】scanf()函数详解
【C语言基础篇】scanf()函数详解
|
人工智能 自然语言处理 安全
工信部个人信息保护“智御”大模型发布
【2月更文挑战第10天】工信部个人信息保护“智御”大模型发布
182 2
工信部个人信息保护“智御”大模型发布
|
前端开发 Java 程序员
Eolink神技之四、IDEA工具插件Eolink ApiKit
Eolink神技之四、IDEA工具插件Eolink ApiKit
415 0
|
缓存 NoSQL Java
Redis实现商品信息对象缓存
Redis实现商品信息对象缓存
403 0
|
JavaScript
Ant Design vue 表格内换行
Ant Design vue 表格内换行
474 1
|
人工智能 小程序 搜索推荐
宠物小程序开发:探索宠物行业的数字化创新之路
随着社会的进步和人们对宠物的热爱,宠物行业正迎来数字化创新的浪潮。宠物小程序作为一种新兴的移动应用形式,以其便捷、互动和个性化的特点,为宠物主人和宠物服务提供了全新的体验。本文将深入探讨宠物小程序开发的专业性和创新性,并探讨其在宠物行业中的应用前景。