关于如何使用机器学习来做异常检测的7个问题

简介: 问问题是学习的好方法之一。但有时你不知道从哪里开始,或者该问什么 —— 尤其是在你还比较熟悉的异常检测之类的话题上。在这种情况下,最好倾听别人的问题,让他们的思路来指导你的学习。

--------点击屏幕右侧或者屏幕底部“+订阅”,关注我,随时分享机器智能最新行业动态及技术干货----------

image.png

导读

问问题是学习的好方法之一。但有时你不知道从哪里开始,或者该问什么 —— 尤其是在你还比较熟悉的异常检测之类的话题上。在这种情况下,最好倾听别人的问题,让他们的思路来指导你的学习。

以下是我们在“Ask Me Anything: Anomaly Detection”网络研讨会上收到的一些问题,可以帮助你入门。

离群点和异常值的区别是什么?

离群值是远离分布的位置或者平均值的观测值。然而,它们并不一定代表异常行为或由不同过程产生的行为。另一方面,异常是由不同的过程生成的数据模式。

异常检测在药品中有什么应用吗?

异常检测在药物生命科学领域有许多应用。包括在制药生产中使用统计过程控制(SPC)或质量控制(QC)和多元过程控制(MSPC)图表进行过程监控和质量控制。及时发现异常是避免异常事件发生,遵守安全标准的关键。发现柜台交易中的异常情况,可以用来打击医药零售数据中的处方滥用。实时检测多参数临床试验数据中的异常,有助于保证临床试验的成功。

GANs 也用于异常检测吗?如果是的话,能否提供一个行业用例

生成对抗网络(GANs)是一种新的无监督学习方法,在识别异常方面非常有效。由于 GANs 是设计成迭代的,并且对抗性训练的目的是利用重构样本来优化减少残差损失,因此它们在半结构化和非结构化数据中工作得很好。它们在医学图像分析(帮助放射学家发现难以识别的肿瘤)、面部识别、文本图像转换等方面非常有用。

数据相关性会影响异常检测吗?我们可以用什么方法,怎样减少这些影响?是否最好在开始异常检测之前清除和删除关联数据?

正如在网络研讨会上提到的,我们不认为相关性会影响异常检测,但我们有许多可用的技术来帮助确定如何处理相关变量。一个建议是使用主成分分析(PCA)这样的技术来减少维数。

建议使用什么样的算法适合于检测与识别网络活动或数据中的不寻常活动有关的异常?

正如在网络研讨会上提到的,有许多方法和算法可以很好地用于异常检测的各种应用和用例。其中有递归神经网络(RNN)、生成对抗网络(GAN)、隔离森林、深度自编码器等。如果你对网络/图分析特别感兴趣,用来识别网络图异常的两种主要方法是直接邻居离群点检测算法(DNODA)和社区邻居算法(CNA)。

在我目前的工作中,“新颖性”是我们努力去发现的主要东西。质量控制图对于已知的模式很有效,但是自动识别新模式比较困难。我希望能得到一些在这方面有所帮助的工具的想法。

对于单变量质量控制图,西方的电气规则可以用于检测少数常见的模式。经典的多元方法,如偏最小二乘(PLS),会捕获到涉及不止一个变量的模式,但不能被单变量方法检测。自动编码器是最全面的工具,将涵盖最广泛的不同模式。它可以捕获多变量、循环、非线性和交互的模式。你使用一组正常数据训练 autoencoder,在训练集中没有出现的新数据中出现的任何模式都将被标记。

通过做 PCA 来减少维度会影响数据集中的异常吗?它会导致异常现象的消失吗?如果是这样,如何预防呢?

做 PCA 将会在原始数据集中捕获一些百分比的方差。因此,我们使用 PCA 进行异常检测的方法是计算原始点到低维空间中表示的点的“距离”。距离越大(即在将观测结果映射到低维空间时“丢失”的越多),我们就越认为它是一种异常。

image.png

文章来源:https://yqh.aliyun.com/detail/17379

目录
相关文章
|
4月前
|
机器学习/深度学习 运维
【阿里天池-医学影像报告异常检测】4 机器学习模型调参
本文提供了对医学影像报告异常检测任务中使用的机器学习模型(如XGBoost和LightGBM)进行参数调整的方法,并分享了特征提取和模型调优的最佳实践。
62 13
|
4月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
79 9
|
6月前
|
机器学习/深度学习 数据采集 运维
构建基于机器学习的异常检测系统
【6月更文挑战第7天】构建基于机器学习的异常检测系统,通过收集和预处理数据,进行特征提取和选择,然后选择SVM、随机森林等算法训练模型。评估指标包括准确率、召回率、F1值,旨在识别安全威胁、系统故障等异常,保障系统稳定。未来将持续优化性能并探索新技术。
|
7月前
|
机器学习/深度学习 运维 算法
利用机器学习进行异常检测的技术实践
【5月更文挑战第16天】本文探讨了利用机器学习进行异常检测的技术实践,强调了在大数据时代异常检测的重要性。机器学习通过无监督、有监督和半监督学习方法自动识别异常,常见算法包括KNN、LOF、K-means和GMM等。异常检测流程包括数据准备、特征工程、选择算法、训练模型、评估优化及部署。机器学习为异常检测提供了灵活性和准确性,但需结合具体问题选择合适方法。
|
7月前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI 操作报错合集之请问Alink的算法中的序列异常检测组件,是对数据进行分组后分别在每个组中执行异常检测,而不是将数据看作时序数据进行异常检测吧
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
7月前
|
机器学习/深度学习 运维 算法
【Python机器学习专栏】异常检测算法在Python中的实践
【4月更文挑战第30天】本文介绍了异常检测的重要性和在不同领域的应用,如欺诈检测和网络安全。文章概述了四种常见异常检测算法:基于统计、距离、密度和模型的方法。在Python实践中,使用scikit-learn库展示了如何实现这些算法,包括正态分布拟合、K-means聚类、局部异常因子(LOF)和孤立森林(Isolation Forest)。通过计算概率密度、距离、LOF值和数据点的平均路径长度来识别异常值。
210 0
|
机器学习/深度学习 运维 算法
自适应机器学习异常检测
自适应机器学习异常检测
115 1
|
机器学习/深度学习 运维 资源调度
【吴恩达机器学习笔记】十三、异常检测
【吴恩达机器学习笔记】十三、异常检测
132 0
|
机器学习/深度学习 数据采集 人工智能
时间序列异常检测:统计和机器学习方法介绍
在本文中将探索各种方法来揭示时间序列数据中的异常模式和异常值。
329 0
|
机器学习/深度学习 运维 自然语言处理
一文读懂!异常检测全攻略!从统计方法到机器学习 ⛵
本文系统介绍了『单变量异常检测』和『多变量异常检测』识别技术,包括传统的统计方法(四分位距、标准差),以及前沿的机器学习模型(孤立森林、DBSCAN、LOF局部离群因子)。
1735 2
一文读懂!异常检测全攻略!从统计方法到机器学习 ⛵