非监督学习算法:异常检测

简介:

什么是异常(outlier)?Hawkins(1980)给出了异常的本质性的定义:异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。聚类算法对异常的定义:异常是聚类嵌于其中的背景噪声。异常检测算法对异常的定义:异常是既不属于聚类也不属于背景噪声的点。它的行为与正常的行为有显著的不同。在某个季节里,某一天的气温很高或很低,这个温度数据就是一个异常。异常检测和分析是数据挖掘中一个重要方面,也是一个非常有趣的挖掘课题。它用来发现“小的模式”(相对于聚类),即数据集中间显著不同于其它数据的对象。异常检测具有广泛的应用,如电信和信用卡欺骗、贷款审批、药物研究、医疗分析、消费者行为分析、气象预报、金融领域客户分类、网络入侵检测等 。

一、异常检测方法的分类

异常数据挖掘是一个非常有趣的研究课题,国内外关于这方面的已提出的算法文献非常多,这些方法大致分为四类:基于统计(statistical-based)的方法、基于距离(distance-based)的方法、基于偏差(deviation-based)的方法、基于密度(density-based)的方法。

(一)基于统计的方法

假设给定的数据集服从一个随机分布(如正态分布等),用不一致性测试(discordancy test)识别异常。存在问题是,在许多情况下,用户并不知道这个数据分布;而且现实数据也往往不符合任何一种理想状态的数学分布;即使在低维(一维或二维)时的数据分布已知,在高维情况下,估计数据点的分布是极其困难的。

(二)基于距离的方法

Knorr和Ng(VLDB’1998)提出一种基于距离的异常检测方法,基于距离的异常定义:数据集S中一个对象O称为DB(p,D)-outlier,如果它满足下列性质:数据集S中至少p*100%的对象与O的距离大于距离D。简单的说,基于距离的异常点就是那些没有“足够多”的邻居的对象。采取不同的参数p和D , DB(p,D)-outlier可以表示所有的基于统计的异常。基于距离的异常检测的算法又分为三个基本类型:基于索引(index-based)的算法、嵌套循环(nested-loop)算法、基于单元(cell-based)的方法。

1.基于索引的算法

寻找所有的DB(p,D)-outlier可以通过对最近邻查询或以O为中心的范围查询的回答来实现。基于多维索引结构R-Tree或kd-Tree算法复杂度是O(kN2 ),其中k为维数,N为数据点数。缺点:需要建立多维索引结构,时间复杂度大。

2.嵌套循环算法NL

将内存缓冲区空间划分成相等的两部分,数据集分成几个大小和每部分缓冲区相等的逻辑块,通过认真选择调入每一部分缓冲区的次序,使I/O次数最小算法复杂度是O(kN2)其中k为维数,N为数据点数。 特点:不需要建立多维索引结构,时间复杂度较大。

3.基于单元的方法

数据空间被划分为边长为D/(2k1/2)的单元;每个单元有两个包围层第一层为1倍的单元厚,第二层为int(2k1/2 -1)+1倍的单元厚确定异常,

若cell_+_1_layer_count>M,单元中的对象都不是异常;

若cell_+_2_layer_count<=M,单元中的所有对象都是异常;

否则,单元中的一些对象可能为异常,逐个对象进行处理。算法复杂度是O(ck+N)。

由于索引建立的开销很大,简单索引算法没有竞争性当k<=4时,基于单元的算法在N越大时优越性越明显当k>=5之后,嵌套循环算法开始显现出优势。

4.基于距离的算法的改进

Knorr和Ng(VLDB’1998)基于距离的异常检测方法的缺陷输入参数p与D很难确定,并且对于不同参数,结果有很大不稳定性。这就需要用户反复输入p与D进行测试,以确定一个满意解;不能给定异常的程度;算法的复杂度较高。Rastogi和Ramaswamy(SIGMOD’2000)提出了一个新的基于距离异常定义

:Dnk 异常,用Dk(p)表示点p和它的第k个最近邻的距离,给定d维空间中包含N个点的数据集,参数n和k(自然数),如果满足Dk(p’)>Dk(p)的点p’不超过n-1个,那么称p为Dnk 异常。如果对数据点根据它们的Dk(p)距离进行排序,那么前n个点就被看作异常。循环嵌套算法(Nested-loop Algorithm),对每个点p,计算它的第k个最近邻的距离Dk(p),把具有极大Dk值前n个点作为异常。上面的算法每次处理一个点p,那么需要扫描一遍数据库,总共需要扫描N遍(N为数据点数)。 基于索引的算法(Index-based Algo?鄄rithm),用如R*-树的空间索引结构存储。基于划分的算法(partition-based Algorithm) ,如果某个点的Dk(p)较小的话,那么不可能是Dnk 异常,可以先对数据集进行划分,然后估计每个划分的Dk(p)的上、下界,如果能判定某个划分不可能包含异常的话,那么就可以直接把它删除掉;然后再从剩下的划分(侯选划分)来计算异常。现有的许多聚类算法可以用来划分数据集,如BIRCH。

 
(三)基于偏差的方法

Argrawal和Ragaran(KDD’1995)提出一种“序列异常”(sequential exception)的概念。算法介绍给定n个对象的集合S,建立一个子集序列{S1,S2,…,Sm},这里2≤m≤n,满足Sj-1


(四)基于密度的方法

距离异常的缺陷,基于密度的方法的有关概念对象p的k-距离(k-distance) 对任意的自然数k,定义p的k-距离(k-distance(p)),为p和某个对象o之间的距离,这里的o满足:

至少存在k个对象o’∈D\{p},使得d(p, o’) d(p, o),并且至多存在k-1个对象o’ ∈D\{p},使得d(p, o’) < d(p, o)。 基于密度的方法的有关概念,

1.对象p的k-距离邻域(Nk-distance), 给定p的k-距离k-distance(p),p的k-距离邻域包含所有与p的距离不超过k-distance(p)的对象。

2.对象p相对于对象o的可达距离,给定自然数k,对象p相对于对象o的可达距离为:

3. 对象p的局部可达密度(Local Reachable Dis?鄄tance),对象p的局部可达密度为对象p与它的MinPts-邻域的平均可达距离的倒数。

4.对象p的局部异常因子(Local Outlier Factor), 局部异常的性质对象p的局部异常因子表示p的异常程度,局部异常因子愈大,就认为它更可能异常;反之则可能性小。簇内靠近核心点的对象的LOF接近于1,那么不应该被认为是局部异常。而处于簇的边缘或是簇的外面的对象的LOF相对较大。

局部异常因子计算:第一步先产生所有点的MinPts-邻域(同时得到MinPts-距离),并计算到其中每个点的距离; 对低维数据,可以利用网格(Grid)来作k-NN查询,整个计算时间为 O(n );对中维或中高维数据,必须采用索引结构如X-树等,使得作k-NN查询的时间为O(logn) ,整个计算时间为 O(n logn);对特高维数据,索引结构不再有效,时间复杂度提高到O(n2)。第二步计算每个点的局部异常因子。

二、算法小结

基于统计的异常检测应用主要局限于科研计算,这主要是因为必须事先知道数据的分布特征这就限制了它的应用范围。 序列异常检测算法提出的序列异常的概念并没有得到普遍的认同。这是因为序列异常在概念上仍然有一定缺陷,遗漏了不少的异常数据。基于距离的算法跟基于统计的算法相比,不需要用户拥有任何领域知识。与“序列异常”相比,在概念上更加直观。更重要的是,距离异常更接近Hawkins的异常本质定义。基于密度的异常观点比基于距离的异常观点更贴近Hawkins的异常定义,因此能够检测出基于距离异常算法所不能识别的一类异常数据———局部异常。局部异常观点摈弃了以前所有的异常定义中非此即彼的绝对异常观念,更加符合现实生活中的应用。

上述的异常检测算法是以静态数据集为研究对象,需要对数据集进行多次扫描,才能得到输出结果。在现实生活中,对动态的数据集,即流数据的在线处理的需求更为迫切,因此,只需进行一次扫描便得到结果的数据流异常检测算法,成为当前的研究热点。


本文作者:佚名

来源:51CTO

相关文章
|
2月前
|
监控 安全 算法
137_安全强化:输入过滤与水印 - 实现输出水印的检测算法与LLM安全防护最佳实践
随着大语言模型(LLM)在各行业的广泛应用,安全问题日益凸显。从提示注入攻击到恶意输出生成,从知识产权保护到内容溯源,LLM安全已成为部署和应用过程中不可忽视的关键环节。在2025年的LLM技术生态中,输入过滤和输出水印已成为两大核心安全技术,它们共同构建了LLM服务的安全防护体系。
|
3月前
|
传感器 资源调度 算法
DDMA-MIMO雷达多子带相干累积目标检测算法——论文阅读
本文提出一种多子带相干累积(MSCA)算法,通过引入空带和子带相干处理,解决DDMA-MIMO雷达的多普勒模糊与能量分散问题。该方法在低信噪比下显著提升检测性能,实测验证可有效恢复目标速度,适用于车载雷达高精度感知。
561 4
DDMA-MIMO雷达多子带相干累积目标检测算法——论文阅读
|
2月前
|
开发框架 算法 .NET
基于ADMM无穷范数检测算法的MIMO通信系统信号检测MATLAB仿真,对比ML,MMSE,ZF以及LAMA
简介:本文介绍基于ADMM的MIMO信号检测算法,结合无穷范数优化与交替方向乘子法,降低计算复杂度并提升检测性能。涵盖MATLAB 2024b实现效果图、核心代码及详细注释,并对比ML、MMSE、ZF、OCD_MMSE与LAMA等算法。重点分析LAMA基于消息传递的低复杂度优势,适用于大规模MIMO系统,为通信系统检测提供理论支持与实践方案。(238字)
|
2月前
|
存储 监控 算法
基于 PHP 布隆过滤器的局域网监控管理工具异常行为检测算法研究
布隆过滤器以其高效的空间利用率和毫秒级查询性能,为局域网监控管理工具提供轻量化异常设备检测方案。相比传统数据库,显著降低延迟与资源消耗,适配边缘设备部署需求,提升网络安全实时防护能力。(238字)
169 0
|
6月前
|
机器学习/深度学习 运维 监控
实时异常检测实战:Flink+PAI 算法模型服务化架构设计
本文深入探讨了基于 Apache Flink 与阿里云 PAI 构建的实时异常检测系统。内容涵盖技术演进、架构设计、核心模块实现及金融、工业等多领域实战案例,解析流处理、模型服务化、状态管理等关键技术,并提供性能优化与高可用方案,助力企业打造高效智能的实时异常检测平台。
517 1
|
10月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GRU网络的MQAM调制信号检测算法matlab仿真,对比LSTM
本研究基于MATLAB 2022a,使用GRU网络对QAM调制信号进行检测。QAM是一种高效调制技术,广泛应用于现代通信系统。传统方法在复杂环境下性能下降,而GRU通过门控机制有效提取时间序列特征,实现16QAM、32QAM、64QAM、128QAM的准确检测。仿真结果显示,GRU在低SNR下表现优异,且训练速度快,参数少。核心程序包括模型预测、误检率和漏检率计算,并绘制准确率图。
308 65
基于GRU网络的MQAM调制信号检测算法matlab仿真,对比LSTM
|
5月前
|
存储 监控 算法
基于跳表数据结构的企业局域网监控异常连接实时检测 C++ 算法研究
跳表(Skip List)是一种基于概率的数据结构,适用于企业局域网监控中海量连接记录的高效处理。其通过多层索引机制实现快速查找、插入和删除操作,时间复杂度为 $O(\log n)$,优于链表和平衡树。跳表在异常连接识别、黑名单管理和历史记录溯源等场景中表现出色,具备实现简单、支持范围查询等优势,是企业网络监控中动态数据管理的理想选择。
177 0
|
机器学习/深度学习 算法 数据安全/隐私保护
基于MSER和HOG特征提取的SVM交通标志检测和识别算法matlab仿真
### 算法简介 1. **算法运行效果图预览**:展示算法效果,完整程序运行后无水印。 2. **算法运行软件版本**:Matlab 2017b。 3. **部分核心程序**:完整版代码包含中文注释及操作步骤视频。 4. **算法理论概述**: - **MSER**:用于检测显著区域,提取图像中稳定区域,适用于光照变化下的交通标志检测。 - **HOG特征提取**:通过计算图像小区域的梯度直方图捕捉局部纹理信息,用于物体检测。 - **SVM**:寻找最大化间隔的超平面以分类样本。 整个算法流程图见下图。
|
6月前
|
机器学习/深度学习 监控 算法
面向办公室屏幕监控系统的改进型四叉树屏幕变化检测算法研究
本文提出一种改进型四叉树数据结构模型,用于优化办公室屏幕监控系统。通过动态阈值调节、变化优先级索引及增量更新策略,显著降低计算复杂度并提升实时响应能力。实验表明,该算法在典型企业环境中将屏幕变化检测效率提升40%以上,同时减少资源消耗。其应用场景涵盖安全审计、工作效能分析及远程协作优化等,未来可结合深度学习实现更智能化的功能。
129 0
|
9月前
|
机器学习/深度学习 存储 算法
基于MobileNet深度学习网络的活体人脸识别检测算法matlab仿真
本内容主要介绍一种基于MobileNet深度学习网络的活体人脸识别检测技术及MQAM调制类型识别方法。完整程序运行效果无水印,需使用Matlab2022a版本。核心代码包含详细中文注释与操作视频。理论概述中提到,传统人脸识别易受非活体攻击影响,而MobileNet通过轻量化的深度可分离卷积结构,在保证准确性的同时提升检测效率。活体人脸与非活体在纹理和光照上存在显著差异,MobileNet可有效提取人脸高级特征,为无线通信领域提供先进的调制类型识别方案。

热门文章

最新文章