Outlier and Outlier Analysis|学习笔记

简介: 快速学习 Outlier and Outlier Analysis

开发者学堂课程【高校精品课北京理工大学数据仓库与数据挖掘(下)Outlier and Outlier Analysis】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/1041/detail/15653


Outlier and Outlier Analysis


内容介绍:

一、异常和异常分析的基本概念

二、异常检测的应用

三、异常的分类

四、PASE 使用实践


本课程开始数据仓库与数据挖掘的学习。主要介绍异常分析方面的内容,在这一部分中,介绍异常和异常分析的基本概念。异常分析的方法,基于统计的异常分析方法,基于邻近性的异常检测方法,基于聚类和基于分类的异常检测方法


一、异常和异常分析的基本概念

首先,来看一下异常和异常分析的基本概念。什么是异常?异常指的是一个数据对象,如果它的行为和数据集中其余数据对象差异性比较大,那么这样的一个数据对象,把它称之为叫做异常。

在学习异常概念的时候,需要把异常与噪音进行区分。噪音指的是测量数据中的随机错误或者是偏差。在进行异常分析之前,首先要将数据集中的噪音去掉。


二、异常检测的应用

对于异常检测,它的应用非常广泛,比如信用卡欺诈检测。药物分析,顾客行为分析。以及电信欺诈检测等都可以用到异常检测。

图片1.png


三、异常的分类

首先来看一下异常的分类。对于异常来说,主要有三类全局离群点上下文离群点和群体异常,首先来看一下全局离群点。

1. 全局离群点

所谓的全局离群点,或者叫全局异常,指的是一个对象的行为与数据集中,其余数据对象的行为差异性比较大。比如最典型的代表就是信用卡欺诈检测中,如果一个顾客它的信用卡使用的记录和大多数顾客的使用记录差异比较大,就把这样的行为称之为叫做全局异常。

图片2.png

2.情境异常

再来看一下情境异常,所谓的情境异常,又被称之为叫做上下文异常。情境异常指的是,如果一个对象在某一个情景下,它和大部分对象的行为差异比较大,认为这个数据对象就是在这个上下文或者这个情景下的异常。比如对于北京的气温是32摄氏度,是否是属于一个异常温度呢?如果是在夏季,这个温度就是一个正常的温度,但是如果是在冬季,这个温度就是一个异常温度。

在进行情境异常点检测分析的时候,会将对象的属性划分为两部分。一种是对象的上下文属性。比如说像时间地点。它主要是用于定义上下文的。

第二种属性就是行为属性,主要是用于描述这个数据对象的一些行为特征。在进行情境异常点检测的时候,不仅需要考虑对象的上下文属性,还需要考虑对象的行为属性。

3. 群体异常

第三类异常称之为群体异常。群体异常是一组数据对象,如果它和这个数据集中,大部分的对象因为差异性比较大,就认为它是群体异常。但是作为这样的一个群体,异常集合中每一个数据对象而言,它又是正常的。

图片3.png

比如说在计算机入侵检测中,如果一台计算机,它拒绝服务请求,那么这种现象属于正常现象。但是如果有大量的计算机,相互之间拒绝服务请求,那这就是一种比较异常的现象。对于一个数据集来说,它的异常可能有好几种类型,而对于这个数据集中的一个数据对象来说,它所代表的异常也可能是属于几种异常。

关于异常的基本概念和异常分析的基本概念就介绍到这里。

 

相关文章
|
C++
hackerrank challenges median
只能说这题我想多了,使用普通的插入排序完全可以解决这道题,在查找的时候用二分加快查找速度。 正确解题报告 这道题的关键在于,不能用int,因为两个int相加可能会越界!因为这个WA了好多遍。所以改用long long。 对double,使用math.h中的函数ceil(double)可以取整,根据ceil(v) == v的结果可以判断v是否是整数。
51 0
|
5月前
|
机器学习/深度学习 算法 关系型数据库
Hierarchical Attention-Based Age Estimation and Bias Analysis
【6月更文挑战第8天】Hierarchical Attention-Based Age Estimation论文提出了一种深度学习方法,利用层次注意力和图像增强来估计面部年龄。通过Transformer和CNN,它学习局部特征并进行序数分类和回归,提高在CACD和MORPH II数据集上的准确性。论文还包括对种族和性别偏倚的分析。方法包括自我注意的图像嵌入和层次概率年龄回归,优化多损失函数。实验表明,该方法在RS和SE协议下表现优越,且在消融研究中验证了增强聚合和编码器设计的有效性。
37 2
|
机器学习/深度学习 算法 计算机视觉
NeRF-Pose: A First-Reconstruct-Then-Regress Approach for Weakly-supervised 6D Object Pose Estimation
NeRF-Pose: A First-Reconstruct-Then-Regress Approach for Weakly-supervised 6D Object Pose Estimation
261 0
|
机器学习/深度学习 数据挖掘
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
57 1
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
|
机器学习/深度学习 算法 决策智能
Lecture 4:无模型预测
Lecture 4:无模型预测
129 1
|
机器学习/深度学习 存储 算法
YOLOv5的Tricks | 【Trick7】指数移动平均(Exponential Moving Average,EMA)
这篇博客主要用于整理网上对EMA(指数移动平均)的介绍,在yolov5代码中也使用了这个技巧,现对其进行归纳。
1755 1
YOLOv5的Tricks | 【Trick7】指数移动平均(Exponential Moving Average,EMA)
|
运维 算法 数据挖掘
Outlier Detection Methods|学习笔记
快速学习 Outlier Detection Methods
Outlier Detection Methods|学习笔记
|
数据可视化 算法 数据挖掘
Evaluation of Clustering|学习笔记
快速学习 Evaluation of Clustering
Evaluation of Clustering|学习笔记
|
算法 数据挖掘
聚类分析②——k-means
KMeans 算法通过把样本分离成 n 个具有相同方差的类的方式来聚集数据,最小化称为 惯量(inertia) 或 簇内平方和(within-cluster sum-of-squares)的标准(criterion)。
186 0
聚类分析②——k-means