Outlier and Outlier Analysis|学习笔记

简介: 快速学习 Outlier and Outlier Analysis

开发者学堂课程【高校精品课北京理工大学数据仓库与数据挖掘(下)Outlier and Outlier Analysis】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/1041/detail/15653


Outlier and Outlier Analysis


内容介绍:

一、异常和异常分析的基本概念

二、异常检测的应用

三、异常的分类

四、PASE 使用实践


本课程开始数据仓库与数据挖掘的学习。主要介绍异常分析方面的内容,在这一部分中,介绍异常和异常分析的基本概念。异常分析的方法,基于统计的异常分析方法,基于邻近性的异常检测方法,基于聚类和基于分类的异常检测方法


一、异常和异常分析的基本概念

首先,来看一下异常和异常分析的基本概念。什么是异常?异常指的是一个数据对象,如果它的行为和数据集中其余数据对象差异性比较大,那么这样的一个数据对象,把它称之为叫做异常。

在学习异常概念的时候,需要把异常与噪音进行区分。噪音指的是测量数据中的随机错误或者是偏差。在进行异常分析之前,首先要将数据集中的噪音去掉。


二、异常检测的应用

对于异常检测,它的应用非常广泛,比如信用卡欺诈检测。药物分析,顾客行为分析。以及电信欺诈检测等都可以用到异常检测。

图片1.png


三、异常的分类

首先来看一下异常的分类。对于异常来说,主要有三类全局离群点上下文离群点和群体异常,首先来看一下全局离群点。

1. 全局离群点

所谓的全局离群点,或者叫全局异常,指的是一个对象的行为与数据集中,其余数据对象的行为差异性比较大。比如最典型的代表就是信用卡欺诈检测中,如果一个顾客它的信用卡使用的记录和大多数顾客的使用记录差异比较大,就把这样的行为称之为叫做全局异常。

图片2.png

2.情境异常

再来看一下情境异常,所谓的情境异常,又被称之为叫做上下文异常。情境异常指的是,如果一个对象在某一个情景下,它和大部分对象的行为差异比较大,认为这个数据对象就是在这个上下文或者这个情景下的异常。比如对于北京的气温是32摄氏度,是否是属于一个异常温度呢?如果是在夏季,这个温度就是一个正常的温度,但是如果是在冬季,这个温度就是一个异常温度。

在进行情境异常点检测分析的时候,会将对象的属性划分为两部分。一种是对象的上下文属性。比如说像时间地点。它主要是用于定义上下文的。

第二种属性就是行为属性,主要是用于描述这个数据对象的一些行为特征。在进行情境异常点检测的时候,不仅需要考虑对象的上下文属性,还需要考虑对象的行为属性。

3. 群体异常

第三类异常称之为群体异常。群体异常是一组数据对象,如果它和这个数据集中,大部分的对象因为差异性比较大,就认为它是群体异常。但是作为这样的一个群体,异常集合中每一个数据对象而言,它又是正常的。

图片3.png

比如说在计算机入侵检测中,如果一台计算机,它拒绝服务请求,那么这种现象属于正常现象。但是如果有大量的计算机,相互之间拒绝服务请求,那这就是一种比较异常的现象。对于一个数据集来说,它的异常可能有好几种类型,而对于这个数据集中的一个数据对象来说,它所代表的异常也可能是属于几种异常。

关于异常的基本概念和异常分析的基本概念就介绍到这里。

 

相关文章
|
前端开发 iOS开发
canvas生成图片模糊的解决方案
canvas生成图片模糊的解决方案
2224 1
canvas生成图片模糊的解决方案
|
存储 数据可视化 API
1688商品详情数据接口:如何通过1688 API实现批量商品数据抓取和分析
使用1688 API进行批量商品数据抓取和分析,首先需注册账号创建应用获取App Key和Secret Key。研究API文档,构建请求URL,如商品详情、搜索、销售量等接口。利用编程语言发送HTTP请求,实时抓取并处理数据,存储到数据库。实施优化策略,处理错误,记录日志。数据可视化展示并确保API安全性。编写文档并持续更新以适应API变化。参考[c0b.cc/R4rbK2]获取API测试和SDK。
|
7月前
|
机器学习/深度学习 运维 数据可视化
《生成对抗网络:网络安全态势感知可视化的新引擎》
在数字化时代,网络安全至关重要。网络安全态势感知可视化通过直观展示网络状况,帮助快速发现威胁。生成对抗网络(GANs)作为前沿AI技术,正为这一领域带来变革。GANs由生成器和判别器组成,通过对抗训练生成逼真数据,用于数据增强、异常检测、威胁情报合成及动态场景模拟。尽管面临数据隐私、模型稳定性和可解释性等挑战,GANs的应用前景广阔,有望大幅提升网络安全水平。
255 22
|
7月前
|
机器学习/深度学习 算法 搜索推荐
Featurewiz-Polars:基于XGBoost的高性能特征选择框架,一行代码搞定特征选择
Featurewiz是一个强大的特征选择库,提供高度自动化的特征选择、全面的特征工程功能,并实现了高效的mRMR算法。它已成为许多数据科学家的首选工具,拥有140多篇Google Scholar引用。最新版Featurewiz-Polars通过集成Polars引擎,在处理速度和大规模数据集处理能力上显著提升。
196 2
Featurewiz-Polars:基于XGBoost的高性能特征选择框架,一行代码搞定特征选择
|
存储 SQL 关系型数据库
MySQL语句详解:从基础到进阶的全面指南
MySQL语句详解:从基础到进阶的全面指南
|
机器学习/深度学习
【Python-Keras】keras.layers.BatchNormalization解析与使用
BatchNormalization是一种用于深度神经网络的规范化方法,通过在每个batch上规范化前一层的激活值,加快模型训练速度,提高稳定性,并减少对初始化权重的敏感性,允许使用更大的学习率。
308 1
|
弹性计算 运维 网络安全
上云“加速器”——基于云效流水线快速上线企业门户网站
阿里云提出使用云效将项目代码部署到ECS,快速构建企业门户网站。该方案融合云原生技术和持续交付,通过云效流水线简化从开发到部署的全过程,实现快速迭代。文章详细阐述了技术架构,包括客户端、云解析DNS、VPC、ECS等组件,以及部署流程,包括准备阶段、部署网站服务、解析域名和可选的静态资源加速。此外,还介绍了如何使用云效平台创建流水线,实现自动化构建与部署,以及如何通过一键部署简化流程。整个方案旨在降低运维成本,提高速度和灵活性,同时提供域名备案和SSL证书配置的指导。
195193 76
上云“加速器”——基于云效流水线快速上线企业门户网站
|
11月前
|
安全 测试技术 API
一图看懂API测试9种方法
一图看懂API测试九种方法:冒烟测试验证基本功能,功能测试确保符合规格,集成测试检查组件协同工作,回归测试防止新变更引入问题,负载测试评估性能稳定性,压力测试挑战极限负载,安全测试发现并修复漏洞,用户界面测试确保UI与API协调,模糊测试提升异常数据处理鲁棒性。
|
机器学习/深度学习 人工智能 PyTorch
面向AI Native应用的高效迁移学习策略
【8月更文第1天】随着人工智能技术的发展,越来越多的应用场景需要定制化的AI解决方案。然而,从零开始训练一个深度学习模型往往需要大量的标注数据和计算资源。迁移学习提供了一种有效的方法来解决这个问题,它利用预训练模型的知识,通过少量的数据就能达到很好的性能。本文将深入探讨面向AI Native应用的高效迁移学习策略,并通过实例展示如何针对具体场景进行模型微调。
430 6
面向AI Native应用的高效迁移学习策略
|
消息中间件 缓存 NoSQL
Redis快速度特性及为什么支持多线程及应用场景
Redis快速度特性及为什么支持多线程及应用场景
240 11