Outlier and Outlier Analysis|学习笔记

简介: 快速学习 Outlier and Outlier Analysis

开发者学堂课程【高校精品课北京理工大学数据仓库与数据挖掘(下)Outlier and Outlier Analysis】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/1041/detail/15653


Outlier and Outlier Analysis


内容介绍:

一、异常和异常分析的基本概念

二、异常检测的应用

三、异常的分类

四、PASE 使用实践


本课程开始数据仓库与数据挖掘的学习。主要介绍异常分析方面的内容,在这一部分中,介绍异常和异常分析的基本概念。异常分析的方法,基于统计的异常分析方法,基于邻近性的异常检测方法,基于聚类和基于分类的异常检测方法


一、异常和异常分析的基本概念

首先,来看一下异常和异常分析的基本概念。什么是异常?异常指的是一个数据对象,如果它的行为和数据集中其余数据对象差异性比较大,那么这样的一个数据对象,把它称之为叫做异常。

在学习异常概念的时候,需要把异常与噪音进行区分。噪音指的是测量数据中的随机错误或者是偏差。在进行异常分析之前,首先要将数据集中的噪音去掉。


二、异常检测的应用

对于异常检测,它的应用非常广泛,比如信用卡欺诈检测。药物分析,顾客行为分析。以及电信欺诈检测等都可以用到异常检测。

图片1.png


三、异常的分类

首先来看一下异常的分类。对于异常来说,主要有三类全局离群点上下文离群点和群体异常,首先来看一下全局离群点。

1. 全局离群点

所谓的全局离群点,或者叫全局异常,指的是一个对象的行为与数据集中,其余数据对象的行为差异性比较大。比如最典型的代表就是信用卡欺诈检测中,如果一个顾客它的信用卡使用的记录和大多数顾客的使用记录差异比较大,就把这样的行为称之为叫做全局异常。

图片2.png

2.情境异常

再来看一下情境异常,所谓的情境异常,又被称之为叫做上下文异常。情境异常指的是,如果一个对象在某一个情景下,它和大部分对象的行为差异比较大,认为这个数据对象就是在这个上下文或者这个情景下的异常。比如对于北京的气温是32摄氏度,是否是属于一个异常温度呢?如果是在夏季,这个温度就是一个正常的温度,但是如果是在冬季,这个温度就是一个异常温度。

在进行情境异常点检测分析的时候,会将对象的属性划分为两部分。一种是对象的上下文属性。比如说像时间地点。它主要是用于定义上下文的。

第二种属性就是行为属性,主要是用于描述这个数据对象的一些行为特征。在进行情境异常点检测的时候,不仅需要考虑对象的上下文属性,还需要考虑对象的行为属性。

3. 群体异常

第三类异常称之为群体异常。群体异常是一组数据对象,如果它和这个数据集中,大部分的对象因为差异性比较大,就认为它是群体异常。但是作为这样的一个群体,异常集合中每一个数据对象而言,它又是正常的。

图片3.png

比如说在计算机入侵检测中,如果一台计算机,它拒绝服务请求,那么这种现象属于正常现象。但是如果有大量的计算机,相互之间拒绝服务请求,那这就是一种比较异常的现象。对于一个数据集来说,它的异常可能有好几种类型,而对于这个数据集中的一个数据对象来说,它所代表的异常也可能是属于几种异常。

关于异常的基本概念和异常分析的基本概念就介绍到这里。

 

相关文章
|
8月前
|
数据可视化 数据挖掘 数据处理
SPSS(Statistical Package for the Social Sciences)
SPSS(Statistical Package for the Social Sciences)是一种统计分析软件,广泛用于社会科学、商业和健康领域的数据分析。它提供了一套功能强大的工具和方法,用于数据收集、数据处理、数据可视化和统计分析。
157 1
|
8月前
|
人工智能 自然语言处理 算法
UIE: Unified Structure Generation for Universal Information Extraction 论文解读
信息提取受到其不同目标、异构结构和特定需求模式的影响。本文提出了一个统一的文本到结构生成框架,即UIE,该框架可以对不同的IE任务进行统一建模,自适应生成目标结构
250 0
|
11月前
|
机器学习/深度学习 存储 自然语言处理
Bi-SimCut: A Simple Strategy for Boosting Neural Machine Translation 论文笔记
Bi-SimCut: A Simple Strategy for Boosting Neural Machine Translation 论文笔记
|
运维 算法 数据挖掘
Statistical Approaches|学习笔记
快速学习 Statistical Approaches
54 0
Statistical Approaches|学习笔记
|
设计模式 前端开发 JavaScript
Overview|学习笔记
快速学习Overview
71 0
|
机器学习/深度学习 自然语言处理 异构计算
Re20:读论文 What About the Precedent: An Information-Theoretic Analysis of Common Law
Re20:读论文 What About the Precedent: An Information-Theoretic Analysis of Common Law
Re20:读论文 What About the Precedent: An Information-Theoretic Analysis of Common Law
|
机器学习/深度学习 人工智能 搜索推荐
【推荐系统论文精读系列】(十五)--Examples-Rules Guided Deep Neural Network for Makeup Recommendation
在本文中,我们考虑了一个全自动补妆推荐系统,并提出了一种新的例子-规则引导的深度神经网络方法。该框架由三个阶段组成。首先,将与化妆相关的面部特征进行结构化编码。其次,这些面部特征被输入到示例中——规则引导的深度神经推荐模型,该模型将Before-After图像和化妆师知识两两结合使用。
117 0
【推荐系统论文精读系列】(十五)--Examples-Rules Guided Deep Neural Network for Makeup Recommendation
|
机器学习/深度学习 人工智能 搜索推荐
【推荐系统论文精读系列】(十二)--Neural Factorization Machines for Sparse Predictive Analytics
现在很多基于网站应用的预测任务都需要对类别进行建模,例如用户的ID、性别和职业等。为了使用通常的机器学习预测算法,需要将这些类别变量通过one-hot将其转化成二值特征,这就会导致合成的特征向量是高度稀疏的。为了有效学习这些稀疏数据,关键就是要解释不同特征之间的影响。
293 0
|
机器学习/深度学习 搜索推荐
【推荐系统论文精读系列】(十四)--Information Fusion-Based Deep Neural Attentive Matrix Factorization Recommendation
推荐系统的出现,有效地缓解了信息过载的问题。而传统的推荐系统,要么忽略用户和物品的丰富属性信息,如用户的人口统计特征、物品的内容特征等,面对稀疏性问题,要么采用全连接网络连接特征信息,忽略不同属性信息之间的交互。本文提出了基于信息融合的深度神经注意矩阵分解(ifdnamf)推荐模型,该模型引入了用户和物品的特征信息,并采用不同信息域之间的交叉积来学习交叉特征。此外,还利用注意机制来区分不同交叉特征对预测结果的重要性。此外,ifdnamf采用深度神经网络来学习用户与项目之间的高阶交互。同时,作者在电影和图书这两个数据集上进行了广泛的实验,并证明了该模型的可行性和有效性。
227 0
【推荐系统论文精读系列】(十四)--Information Fusion-Based Deep Neural Attentive Matrix Factorization Recommendation
|
SQL XML 人工智能
Hands-on data analysis 第一章
Hands-on data analysis 第一章
106 0