【Python机器学习专栏】异常检测算法在Python中的实践

简介: 【4月更文挑战第30天】本文介绍了异常检测的重要性和在不同领域的应用,如欺诈检测和网络安全。文章概述了四种常见异常检测算法:基于统计、距离、密度和模型的方法。在Python实践中,使用scikit-learn库展示了如何实现这些算法,包括正态分布拟合、K-means聚类、局部异常因子(LOF)和孤立森林(Isolation Forest)。通过计算概率密度、距离、LOF值和数据点的平均路径长度来识别异常值。

在机器学习的广阔领域中,异常检测(Outlier Detection)是一个重要的分支,用于识别数据集中与大多数数据显著不同的观测值。这些异常值可能是由测量误差、数据录入错误或某种未知过程产生的。异常检测在欺诈检测、医疗诊断、网络安全等领域发挥着关键作用。本文将介绍几种常见的异常检测算法,并通过Python实现这些算法,以展示其在实践中的应用。

一、异常检测算法简介

异常检测算法通常可以分为基于统计的方法、基于距离的方法、基于密度的方法和基于模型的方法等几类。以下简要介绍几种常见的异常检测算法:

基于统计的方法:通过假设数据服从某种概率分布(如正态分布),计算数据点的概率密度或累积分布函数值,将低于某个阈值的点视为异常值。
基于距离的方法:如K-means聚类算法,通过计算数据点到聚类中心的距离来判断数据点是否为异常值。距离较远的点可能被视为异常值。
基于密度的方法:如局部异常因子(Local Outlier Factor, LOF)算法,通过计算数据点与其邻居的局部密度比值来判断数据点是否为异常值。LOF值较大的点可能被视为异常值。
基于模型的方法:如孤立森林(Isolation Forest)算法,通过构建多棵随机决策树来隔离数据点,并计算数据点的平均路径长度来判断其是否为异常值。路径较短的点可能被视为异常值。
二、异常检测算法在Python中的实践

下面我们将使用Python和scikit-learn库来实现上述几种异常检测算法,并应用于一个简单的数据集。

基于统计的方法
以正态分布为例,我们可以使用scipy库中的正态分布函数来拟合数据,并计算每个数据点的概率密度值。然后,我们可以设置一个阈值,将概率密度值低于该阈值的数据点视为异常值。

python
import numpy as np
from scipy.stats import norm

假设数据服从正态分布

data = np.random.normal(0, 1, 1000)
data = np.append(data, [5, -5]) # 添加异常值

拟合正态分布

mu, std = norm.fit(data)

计算每个数据点的概率密度值

pdf_values = norm.pdf(data, mu, std)

设置阈值,识别异常值

threshold = 0.01
outliers = data[pdf_values < threshold]
print(f"异常值: {outliers}")
基于距离的方法(以K-means为例)
使用scikit-learn中的KMeans类进行K-means聚类,并计算每个数据点到其所属聚类中心的距离。然后,我们可以设置一个阈值,将距离较大的数据点视为异常值。

python
from sklearn.cluster import KMeans

使用K-means聚类

kmeans = KMeans(n_clusters=3, randomstate=0).fit(data.reshape(-1, 1))
distances = np.sort(kmeans.transform(data.reshape(-1, 1)), axis=0)
distances = distances[:, kmeans.labels
]

设置阈值,识别异常值

threshold = np.mean(distances) + 2 * np.std(distances)
outliers = data[distances > threshold]
print(f"异常值: {outliers}")
基于密度的方法(以LOF为例)
scikit-learn的local_outlier_factor方法提供了LOF算法的实现。我们可以直接使用该方法计算每个数据点的LOF值,并设置阈值来识别异常值。

python
from sklearn.neighbors import LocalOutlierFactor

计算LOF值

lof = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
y_pred = lof.fit_predict(data.reshape(-1, 1))

设置阈值,识别异常值

在这里,我们将LOF值小于-1的点视为异常值(因为正常点的LOF值通常接近1)

outliers = data[y_pred == -1]
print(f"异常值: {outliers}")
基于模型的方法(以孤立森林为例)
scikit-learn的IsolationForest类提供了孤立森林算法的实现。我们可以直接使用该方法来检测异常值。

python
from sklearn.ensemble import IsolationForest

使用孤立森林检测异常值

iforest

相关文章
|
6月前
|
算法 搜索推荐 JavaScript
基于python智能推荐算法的全屋定制系统
本研究聚焦基于智能推荐算法的全屋定制平台网站设计,旨在解决消费者在个性化定制中面临的选择难题。通过整合Django、Vue、Python与MySQL等技术,构建集家装设计、材料推荐、家具搭配于一体的一站式智能服务平台,提升用户体验与行业数字化水平。
|
6月前
|
存储 监控 算法
基于 PHP 布隆过滤器的局域网监控管理工具异常行为检测算法研究
布隆过滤器以其高效的空间利用率和毫秒级查询性能,为局域网监控管理工具提供轻量化异常设备检测方案。相比传统数据库,显著降低延迟与资源消耗,适配边缘设备部署需求,提升网络安全实时防护能力。(238字)
245 0
|
6月前
|
传感器 运维 前端开发
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
本文解析异常(anomaly)与新颖性(novelty)检测的本质差异,结合distfit库演示基于概率密度拟合的单变量无监督异常检测方法,涵盖全局、上下文与集体离群值识别,助力构建高可解释性模型。
523 10
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
|
7月前
|
存储 算法 调度
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
351 26
|
7月前
|
机器学习/深度学习 算法 机器人
【机器人路径规划】基于D*算法的机器人路径规划(Python代码实现)
【机器人路径规划】基于D*算法的机器人路径规划(Python代码实现)
352 0
|
7月前
|
机器学习/深度学习 算法 机器人
【机器人路径规划】基于改进型A*算法的机器人路径规划(Python代码实现)
【机器人路径规划】基于改进型A*算法的机器人路径规划(Python代码实现)
533 0
|
7月前
|
机器学习/深度学习 编解码 算法
【机器人路径规划】基于迪杰斯特拉算法(Dijkstra)的机器人路径规划(Python代码实现)
【机器人路径规划】基于迪杰斯特拉算法(Dijkstra)的机器人路径规划(Python代码实现)
581 4
|
7月前
|
机器学习/深度学习 算法 机器人
【机器人路径规划】基于A*算法的机器人路径规划研究(Python代码实现)
【机器人路径规划】基于A*算法的机器人路径规划研究(Python代码实现)
937 4
|
7月前
|
机器学习/深度学习 算法 机器人
【机器人路径规划】基于深度优先搜索(Depth-First-Search,DFS)算法的机器人路径规划(Python代码实现)
【机器人路径规划】基于深度优先搜索(Depth-First-Search,DFS)算法的机器人路径规划(Python代码实现)
372 3
|
7月前
|
算法 机器人 定位技术
【机器人路径规划】基于流场寻路算法(Flow Field Pathfinding)的机器人路径规划(Python代码实现)
【机器人路径规划】基于流场寻路算法(Flow Field Pathfinding)的机器人路径规划(Python代码实现)
475 4

推荐镜像

更多
下一篇
开通oss服务