5 分钟内开始使用异常检测算法

简介: 5 分钟内开始使用异常检测算法

异常检测已迅速从计算机科学理论转移到数据科学家的日常实际应用中。现在,它已成为全球许多企业数据清理和 KPI 审查的重要组成部分。总体而言,它大大提高了预测模型的准确性,可以帮助企业快速识别和响应异常。

今天,为了帮助您开始学习这个密集的主题,我们将探索一个 5 分钟的速成课程,了解什么是异常检测、为什么使用它以及一些基本算法。 异常检测是每一种现代机器学习技术的重要组成部分 它可以帮助您构建更具适应性的回归系统,清除分类器系统训练数据中的缺陷,并从监督学习程序中移除异常数据。这种数学方法对于大数据和数据挖掘应用特别有用,因为人眼几乎不可能注意到具有数千个数据点的数据可视化中的异常值。

由于其用例数量众多,来自不同行业的企业都在其数据策略中实施异常检测。例如,许多公司选择使用异常检测方法来跟踪其关键绩效指标 (KPI)。这使他们能够更快地注意到纸上的异常趋势,并在不断变化的现实市场中更加敏捷。

异常检测也被网络安全专家用于先进的人工智能驱动的欺诈检测和入侵检测系统。这些系统使用先进的数据分析技术来实时跟踪和标记可疑的用户行为。

基本异常检测算法

网络异常,图片无法展示
|

基于密度的技术

基于密度的技术包括常用技术,例如 K 最近邻 (KNN)、局部异常值因子 (LOF)、隔离森林(类似于决策树)等。这些技术可用于回归或分类系统。

这些算法中的每一个都通过遵循最高数据点密度的线来生成预期的行为。落在这些密集区域之外具有统计意义的任何点都被标记为异常。这些技术中的大多数都依赖于点之间的距离,这意味着必须标准化单位并在数据集中缩放以确保准确的结果。

例如,在 KNN 系统中,数据点由 的值加权1/k,其中k是到数据点最近邻居的距离。这意味着距离较近的数据点的权重很大,因此比距离较远的数据点对标准的影响更大。然后系统通过查看具有低值的点来标记异常值1/k

用例

您有规范化的、未标记的数据,您想要扫描这些数据以查找异常,但您对具有复杂计算的算法不感兴趣。

网络异常,图片无法展示
|

一类支持向量机

一类支持向量机(one-class SVM)算法是一种监督学习模型,可产生鲁棒的预测模型。它主要用于分类。该系统使用一组训练示例,每个示例都标记为两个类别之一的一部分。然后,系统会创建标准,用于将新示例分类到每个类别中。该算法将示例映射到空间中的点,以最大限度地区分两个类别。

如果异常值超出任一类别的空间太远,系统会标记异常值。如果您没有标记数据,则可以使用一种无监督学习方法,该方法在示例之间寻找聚类来定义类别。

用例

您的数据应该主要属于两个预期类别,并且想要查找哪些数据点位于任一类别之外。

网络异常,图片无法展示
|

K均值聚类异常检测算法

K 均值聚类算法是一种类似于 KNN 方法的分类算法,因为它依赖于每个数据点与其他附近点的接近程度,并且类似于 SVM,因为它主要侧重于分类到不同的类别中。

每个数据点根据其特征分为几类。每个类别都有一个中心点或质心,用作集群内所有其他数据点的原型。然后将其他点与这些原型进行比较以确定它们的 k 均值,该值本质上充当原型和当前数据点之间差异的度量。较高的 k 均值数据点映射到更靠近原型的位置,从而创建一个集群。

K 均值聚类可以通过标记与任何已建立类别不紧密对齐的点来检测异常。

用例

您拥有由许多不同类型的数据组成的未标记数据,您希望通过与学习原型的相似性来组织这些数据。


相关文章
|
11天前
|
机器学习/深度学习 运维 算法
大模型开发:描述一种用于异常检测的技术或算法。
LOF算法是一种无监督异常检测技术,通过比较数据点局部密度识别离群点。它计算每个点的局部离群因子得分,得分高则异常可能性大。主要步骤包括:距离度量、k近邻搜索、计算局部可达密度和LOF得分,然后设定阈值识别异常点。适用于入侵检测、故障检测等场景,Python中可使用scikit-learn库实现。
27 1
|
11天前
|
传感器 算法 计算机视觉
基于肤色模型和中值滤波的手部检测算法FPGA实现,包括tb测试文件和MATLAB辅助验证
该内容是关于一个基于肤色模型和中值滤波的手部检测算法的描述,包括算法的运行效果图和所使用的软件版本(matlab2022a, vivado2019.2)。算法分为肤色分割和中值滤波两步,其中肤色模型在YCbCr色彩空间定义,中值滤波用于去除噪声。提供了一段核心程序代码,用于处理图像数据并在FPGA上实现。最终,检测结果输出到"hand.txt"文件。
|
3天前
|
算法 计算机视觉
YOLOv3 的非极大值抑制(NMS)算法是如何工作的,它对最终检测结果有何影响?
YOLOv3 的非极大值抑制(NMS)算法是如何工作的,它对最终检测结果有何影响?
|
3天前
|
监控 算法 自动驾驶
主流的目标检测算法是那种?
主流的目标检测算法是那种?
|
4天前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络模型的鱼眼镜头中人员检测算法matlab仿真
该内容是一个关于基于YOLOv2的鱼眼镜头人员检测算法的介绍。展示了算法运行的三张效果图,使用的是matlab2022a软件。YOLOv2模型结合鱼眼镜头畸变校正技术,对鱼眼图像中的人员进行准确检测。算法流程包括图像预处理、网络前向传播、边界框预测与分类及后处理。核心程序段加载预训练的YOLOv2检测器,遍历并处理图像,检测到的目标用矩形标注显示。
|
11天前
|
机器学习/深度学习 运维 算法
【Python机器学习专栏】异常检测算法在Python中的实践
【4月更文挑战第30天】本文介绍了异常检测的重要性和在不同领域的应用,如欺诈检测和网络安全。文章概述了四种常见异常检测算法:基于统计、距离、密度和模型的方法。在Python实践中,使用scikit-learn库展示了如何实现这些算法,包括正态分布拟合、K-means聚类、局部异常因子(LOF)和孤立森林(Isolation Forest)。通过计算概率密度、距离、LOF值和数据点的平均路径长度来识别异常值。
|
11天前
|
算法 数据可视化 数据挖掘
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率
|
11天前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI 操作报错合集之请问Alink的算法中的序列异常检测组件,是对数据进行分组后分别在每个组中执行异常检测,而不是将数据看作时序数据进行异常检测吧
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
11天前
|
数据采集 机器学习/深度学习 监控
使用R编写公司电脑监控软件的异常行为检测算法
本文阐述了在数字化时代,企业使用R语言开发高效异常行为检测算法的重要性,以保障网络安全和数据隐私。文章通过示例展示了如何加载和预处理数据,绘制数据传输趋势图,并运用3倍标准差法识别异常点。此外,还介绍了一种利用R的httr库将异常数据自动提交到网站的方法,以增强安全防护。
95 3
|
11天前
|
算法 数据可视化 数据挖掘
R语言社区发现算法检测心理学复杂网络:spinglass、探索性图分析walktrap算法与可视化
R语言社区发现算法检测心理学复杂网络:spinglass、探索性图分析walktrap算法与可视化