Statistical Approaches|学习笔记

简介: 快速学习 Statistical Approaches

开发者学堂课程【高校精品课北京理工大学数据仓库与数据挖掘(下)Hierarchical Methods】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/1041/detail/15655


Statistical Approaches


内容介绍:

一、基于统计的异常检测

二、对一元数据的异常检测

三、多元数据异常检测方法

四、无参的异常检测方法

本课程开始数据仓库与数据挖掘的学习。在这一部分,介绍基于统计的异常检测方法。


一、基于统计的异常检测

在基于统计的异常检测方法中,假设数据对象是由某一个随机过程或者称之为生成模型产生的。可以首先根据给定的数据集,去拟合这样的一个随机过程或生成模型。

得到生成模型之后,可以去计算每一个数据对象由这个生成模型产生的概率。如果这个对象由这个模型产生的概率比较低,就认为这个对象是异常。

在基于统计的异常检测算法中,主要是包含两类,一类是带参的模型,一类是无参的模型。


二、对一元数据的异常检测

1.向量检索常用算法

向量检索

2.典型算法讲解

那这四种方式呢,

3.PG 自定义索引方法介绍

有了这些 ANN 首先来看一下对一元数据的异常检测,所谓的一元数据,指的是数据只有一个属性。对于一元属性,一往往假设这个数据是由正态分布产生,根据给定的数据,去学习正态分布的参数,再得到正态分布的参数之后,就可以利用正态概率密度函数去估算每一个数据对象,由这样的一个模型产生的概率。

1. 3σ 原则

通过一个例子介绍基于统计的一元数据异常检测。假设有一组数据,首先假设这些数据是由正态分布产生。使用最大释然方法可以估算,正态分布模型的两个、均值和方差。在计算得到均值和方差之后,就可以利用 3σ 原则进行检测。比如下图的一个数据集,计算得到了它的均值和方差。然后就可以利用 z-score 方法,将数据进行标准化,将它标准化为,以零为均值以一为方差的一个正态分布。

图片1.png

比如以24为例,24经过 z-score 规范化之后,它的值是-3.04。,根据正态分布的3σ 原则,大部分数据是分布在零的左右三个方差的范围之内的,也就是在-3到3之间的数据,大概占了总体数据量的99.7%,24所对应-3.04就超出了这样的一个 u 正负 3σ 的范围,认为这个数据就是异常的。

图片2.png

2. 最大标准残差检验

除了使用常见的 3σ 原则,还可以使用最大标准残差检验来对数据进行判断,比如依然是在计算了正态分布的两个参数均值和方差的基础上,将数据进行 z-score 规范化。在规范化之后,就可以根据 z 来进行最大标准残差检验。

在下图的一个计算公式中,n 指的是数据集的个数。而 T²a/(₂ₙ)ₙ-₂ 部分,就指的是在显著水平 ∂ 下的 t 分布的值。

图片3.png

三、多元数据异常检测方法

在介绍了一元数据的异常检测之后,介绍一下多元数据异常检测方法。对于多元数据来说,就指的是它的属性,个数是大于等于二的。对于多元数据异常检测方法,可以使用马哈拉洛比斯距离或者是卡方检验来进行。

1. 马哈拉洛比斯距离

首先介绍马哈拉洛比斯距离,首先计算数据集的均值。然后根据数据集的均值可以计算数据集中每一个数据对象 o 到这个均值的距离,这个时候计算的是马哈拉洛比斯距离。在得到每一个数据对象到均值的马氏距离之后,就可以构建一个一维数组,这个一维数组中的每一个点代表的是每一个对象到这个数据集均值的马哈拉洛比斯距离。在对于这样的一个一维数据,就可以使用之前介绍的最大标准残差检验的方法来检查异常,如果得到异常之后,和这个距离所对应的数据对象就是异常对象。

2. 卡方检验

除了使用马哈拉洛比斯距离还可以通过卡方检验。依然是在计算数据集的均值的基础之上,可以计算每一个数据对象的卡方值,然后利用卡方值来进行异常检测。

图片4.png

上面介绍的方法都是代参的,也就是会假设数据分布是由一个参数模型来表达。


四、无参的异常检测方法

下面介绍无参的基于统计的异常检测方法,其中最具有代表性的就是绘制直方图。

1.交易额直方图

比如下图展示的就是一个交易额的直方图。

图片5.png

通过这样的一个交易额的直方图,会发现大部分的交易额度都是低于5000的,也就是可以累积的算一下低于5000的交易的比率,占到了整个数据集的99.8%。,如果有一个交易的额度达到的是7500,就认为7500的数据是异常的,因为它只是占了数据中的一小部分。

2.困难

对于直方图进行异常检测来说,它的困难在于很难去决定合适的直方图的宽度。如果直方图的宽度设置的比较小一些,正常的数据就会落入到空的直方图或者是稀疏的直方图里面去,这样就会产生大量的错误的正式力。

如果直方图的宽度比较大,异常点就很可能会落入到一些频率比较高的直方里面去,这样就会导致比较高的错误的负试力。

关于基于统计的异常检测方法就介绍到这里。

相关文章
|
5月前
|
存储 运维 安全
Docker化运维:容器部署的实践指南
Docker化运维:容器部署的实践指南
|
2月前
|
SQL 关系型数据库 API
如何开发工程项目部管理系统中的质量管理板块(附架构图+流程图+代码参考)
本文详解如何构建工程项目管理系统中的质量管理模块,涵盖质量检查计划、检查登记、问题清单、整改记录及问题看板五大核心功能。内容包括系统架构设计、业务流程、数据模型、API接口、开发技巧及上线建议,助力实现质量风险的数字化闭环管理,提升项目验收效率与合规性。
|
8月前
|
人工智能 JavaScript 语音技术
HarmonyOS NEXT AI基础语音服务-语音输入
本案例展示了一个基于AI语音服务的实时语音转文字功能,通过麦克风采集音频并转换为文本。主要步骤包括:申请麦克风权限、初始化语音识别引擎、设置识别回调、配置音频参数及实现UI交互(长按按钮控制录音启停)。代码使用TypeScript编写,涵盖权限管理、引擎生命周期、异常处理等核心环节,确保功能稳定运行。适用于需要实时语音转写的场景,如会议记录、语音输入等。
HarmonyOS NEXT AI基础语音服务-语音输入
|
6月前
|
Android开发 开发者
HarmonyOS基础组件:Button三种类型的使用
本文介绍HarmonyOS中的Button使用,随着HarmonyOS明年不再兼容Android原生功能,学习其开发语言变得重要。相比Android,HarmonyOS的Button功能更丰富、扩展性更高,支持三种样式(普通、胶囊、圆形)及自定义样式,减少代码量并简化使用方式。常用属性包括type、backgroundColor、fontSize等,构造函数灵活配置。文章通过示例展示了如何实现带图片和文字的自定义Button,体现了HarmonyOS强大的UI绘制能力和便捷性。
787 0
|
10月前
|
存储 数据挖掘 数据处理
Pandas高级数据处理:内存优化
Pandas 是流行的数据分析库,但随着数据量增加,内存使用问题日益突出。本文介绍常见内存优化问题及解决方案,包括选择合适数据类型(如 int8、float32)、使用 category 类型减少字符串内存开销、分块读取大文件避免 MemoryError 等。通过代码示例详细讲解如何优化内存使用,提高程序性能并避免错误。掌握这些技巧可显著提升 Pandas 数据处理效率。
490 58
|
9月前
|
人工智能 API 云计算
DeepSeek在Lobechat的使用
本文介绍了如何快速基于LobeChat平台打造专属AI助手,重点讲解了两种使用DeepSeek模型的方式。DeepSeek是由中国团队开发的开源大型语言模型,性能优异且支持API调用和本地部署。LobeChat则是开源的AI对话平台,支持私有化部署与多种主流模型集成。
|
存储 API Python
python之代理ip的配置与调试
python之代理ip的配置与调试
358 7
|
11月前
|
设计模式 网络协议 Java
02.单一职责原则详解
单一职责原则(SRP)是面向对象设计的重要原则,强调一个类或模块应仅负责完成一个特定的职责或功能。通过将复杂的功能分解为多个粒度小、功能单一的类,可以提高系统的灵活性、可维护性和可扩展性。本文详细介绍了如何理解单一职责原则,包括方法、接口和类层面的应用,并通过具体例子解释了其优势和判断标准。此外,还探讨了在实际开发中如何平衡类的设计,避免过度拆分导致的复杂性增加。
400 5
|
分布式计算 Hadoop
Hadoop修改Hadoop配置文件
【4月更文挑战第18天】修改Hadoop配置文件步骤:1) 查找安装目录,如`/usr/local/hadoop`或`/opt/hadoop`;2) 进入`conf`或`etc/hadoop`;3) 编辑主要配置文件如`core-site.xml`, `hdfs-site.xml`, `mapred-site.xml`, `yarn-site.xml`;4) 根据需求修改配置项,如改默认文件系统为`hdfs://localhost:9000/`;5) 保存并退出。注意:修改前备份,确保配置正确,重启Hadoop集群使更改生效。
767 4
Hadoop修改Hadoop配置文件