开发者学堂课程【高校精品课北京理工大学数据仓库与数据挖掘(下):Outlier and Outlier Analysis】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1041/detail/15653
Outlier and Outlier Analysis
内容介绍:
一、异常和异常分析的基本概念
二、异常检测的应用
三、异常的分类
四、PASE 使用实践
本课程开始数据仓库与数据挖掘的学习。主要介绍异常分析方面的内容,在这一部分中,介绍异常和异常分析的基本概念。异常分析的方法,基于统计的异常分析方法,基于邻近性的异常检测方法,基于聚类和基于分类的异常检测方法。
一、异常和异常分析的基本概念
首先,来看一下异常和异常分析的基本概念。什么是异常?异常指的是一个数据对象,如果它的行为和数据集中其余数据对象差异性比较大,那么这样的一个数据对象,把它称之为叫做异常。
在学习异常概念的时候,需要把异常与噪音进行区分。噪音指的是测量数据中的随机错误或者是偏差。在进行异常分析之前,首先要将数据集中的噪音去掉。
二、异常检测的应用
对于异常检测,它的应用非常广泛,比如信用卡欺诈检测。药物分析,顾客行为分析。以及电信欺诈检测等都可以用到异常检测。
三、异常的分类
首先来看一下异常的分类。对于异常来说,主要有三类全局离群点上下文离群点和群体异常,首先来看一下全局离群点。
1. 全局离群点
所谓的全局离群点,或者叫全局异常,指的是一个对象的行为与数据集中,其余数据对象的行为差异性比较大。比如最典型的代表就是信用卡欺诈检测中,如果一个顾客它的信用卡使用的记录和大多数顾客的使用记录差异比较大,就把这样的行为称之为叫做全局异常。
2.情境异常
再来看一下情境异常,所谓的情境异常,又被称之为叫做上下文异常。情境异常指的是,如果一个对象在某一个情景下,它和大部分对象的行为差异比较大,认为这个数据对象就是在这个上下文或者这个情景下的异常。比如对于北京的气温是32摄氏度,是否是属于一个异常温度呢?如果是在夏季,这个温度就是一个正常的温度,但是如果是在冬季,这个温度就是一个异常温度。
在进行情境异常点检测分析的时候,会将对象的属性划分为两部分。一种是对象的上下文属性。比如说像时间地点。它主要是用于定义上下文的。
第二种属性就是行为属性,主要是用于描述这个数据对象的一些行为特征。在进行情境异常点检测的时候,不仅需要考虑对象的上下文属性,还需要考虑对象的行为属性。
3. 群体异常
第三类异常称之为群体异常。群体异常是一组数据对象,如果它和这个数据集中,大部分的对象因为差异性比较大,就认为它是群体异常。但是作为这样的一个群体,异常集合中每一个数据对象而言,它又是正常的。
比如说在计算机入侵检测中,如果一台计算机,它拒绝服务请求,那么这种现象属于正常现象。但是如果有大量的计算机,相互之间拒绝服务请求,那这就是一种比较异常的现象。对于一个数据集来说,它的异常可能有好几种类型,而对于这个数据集中的一个数据对象来说,它所代表的异常也可能是属于几种异常。
关于异常的基本概念和异常分析的基本概念就介绍到这里。