【KDD2024】面向集群整体作业运行变慢的异常检测

简介: 阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Cluster-Wide Task Slowdown Detection in Cloud System》被数据挖掘领域顶会ACM SIGKDD2024接收。论文从新的视角分析云计算平台集群健康状态,实现了基于神经网络的集群作业整体变慢异常定向检测,与SOTA异常检测算法相比平均提升F1 score 5.3%。

开篇

近日,由阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Cluster-Wide Task Slowdown Detection in Cloud System》被数据挖掘领域顶会ACM SIGKDD2024接收。论文从新的视角分析云计算平台集群健康状态,实现了基于神经网络的集群作业整体变慢异常定向检测,与SOTA异常检测算法相比平均提升F1 score 5.3%。


背景

面向集群整体作业分布的变慢检测是时序异常检测的一个分支。目前,异常检测可分为有监督异常检测和无监督异常检测。其中有监督异常检测依赖于大量人工标记工作,因而在许多实际场景下难以运用。无监督异常检测则可以克服这个缺点,但面临训练集污染的问题,即训练集中不仅有正常数据,还包括无标记的异常数据。近年来,重构类无监督时序异常检测方法取得了显著的成就,其发展趋势从以RNN变种为backbone的模型,如OmniAnomaly【1】, MSCRED【2】等,逐渐演变到以transformer变种为backbone的模型,如AnomalyTransformer【3】, DCdetector【4】, TranAD【5】等。虽然基于transformer变种的异常检测模型,较之之前的模型取得了明显进步,但我们发现attention机制在处理复合周期信息时,常常会忽略振幅较低的周期性信息。而集群作业整体执行时间分布是一个具有复合周期性的时间序列。因此,本方法在此基础上进一步提出了撇脂注意力机制,提升注意力机制对复合周期信息的处理能力。


挑战

在集群整体作业分布变慢检测中,存在下述三个问题。首先,集群整体作业分布集合了多种作业的执行时间表现,不同作业可能有不同周期,同一作业也会表现出日周期、周周期、月周期复合的情况,而目前attention机制为基础的异常检测神经网络无法准确的重构复合周期序列中振幅较低的周期信息。其次,在实际生产环境下,难以保证训练数据总是只包含正常数据,而无异常数据。因此,使用无监督学习算法时,有污染的数据集会让模型整体效果变差。最后,现有的无监督异常检测算法假设异常是所有偏离正常分布的时刻都为异常。但在集群整体作业分布变慢检测的工作中,我们只关注变慢的异常。


破局

image.png

为提升attention机制处理复合周期性信息的能力,我们首先理论分析标准注意力机制注意力权重分配特征,发现标准注意力机制总是把注意力权重分配给高振幅的周期信号,而忽略低振幅的周期信号。因此,我们提出撇脂周期法,迭代地从原有信号中重构出高振幅的周期信号,使用原有信号减去本轮迭代重构信号,将余下的部分作为下一轮迭代的输入信号。为解决训练数据集污染的问题,我们提出Picky Loss,它自适应地为训练集中的正常数据分配更高的权重,降低异常数据权重。其原理在于attention机制中,正常数据能与其余数据建立广泛且相对均匀的注意力关联,而异常数据仅能与自己周围数据建立较强的注意力关联。因此,我们使用高斯曲线,过滤每个数据周围的注意力权重,而计算其余权重的和。这个和越大说明当前数据为正常数据的可能性越大,应该赋予更高的权重。和越小说明当前数据为异常的可能性越大,因此应该赋予较低的权重。为解决定向检测集群分布变慢的问题,我们设计了Neural OT模块,单向抑制集群作业总体分布变慢的时间片的重构,而通过其余情况下时间片的重构,令变慢时间片重构误差大于其余时间片。


应用

目前对应算法已经在阿里云云原生大数据计算服务MaxCompute集群异常监控场景中进行灰度。可以有效地帮助运维人员对集群运行健康状况进行评估,提前发现可能的风险隐患。

论文信息

●论文名字:Cluster-Wide Task Slowdown Detection in Cloud System

●论文作者:Feiyi Chen, Yingying Zhang, Lunting Fan, Yuxuan Liang, Guansong Pang, Qingsong Wen, Shuiguang Deng

●论文pdf链接:https://arxiv.org/abs/2408.04236

●部分参考文献:【1】Su Y, Zhao Y, Niu C, et al. Robust anomaly detection for multivariate time series through stochastic recurrent neural network[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 2828-2837.【2】Zhang C, Song D, Chen Y, et al. A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 1409-1416.【3】Xu J, Wu H, Wang J, et al. Anomaly transformer: Time series anomaly detection with association discrepancy[J]. arXiv preprint arXiv:2110.02642, 2021.【4】Yang Y, Zhang C, Zhou T, et al. Dcdetector: Dual attention contrastive representation learning for time series anomaly detection[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 3033-3045.【5】Tuli S, Casale G, Jennings N R. Tranad: Deep transformer networks for anomaly detection in multivariate time series data[J]. arXiv preprint arXiv:2201.07284, 2022.

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
Java Shell 网络安全
springboot 远程调用shell脚本,环境为windows
本文是博主学习SpringBoot的记录,希望对大家有所帮助。
1298 0
springboot 远程调用shell脚本,环境为windows
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
自监督学习:引领机器学习的新革命
自监督学习的思想可以追溯到几年前,最早是在图像处理领域被提出。随着深度学习的快速发展,研究者们逐渐认识到未标注数据的巨大潜力。尤其是在大规模数据集的爆炸式增长下,获取标注数据的成本越来越高,而利用自监督学习的方法来减少对标注数据的依赖变得越来越重要。
|
8月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
409 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
机器学习/深度学习 运维 监控
基于特征子空间的高维异常检测:一种高效且可解释的方法
本文探讨了一种替代传统单一检测器的方法,通过构建多个专注于特征子集(子空间)的检测器系统,来提高异常检测的准确性和效率。文章详细介绍了子空间方法在处理高维数据时的优势,包括缓解维度灾难、提高异常检测的可解释性和计算效率。同时,文中还讨论了子空间的选择策略,如基于领域知识、相关性、随机选择等,并介绍了PyOD工具包中实现子空间异常检测的具体方法。通过这些技术,异常检测系统能够更有效地识别数据中的异常记录,尤其是在特征数量众多的情况下。
436 9
基于特征子空间的高维异常检测:一种高效且可解释的方法
|
机器学习/深度学习 运维 大数据
【KDD2024】大数据基础工程技术集群异常检测论文入选
阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Cluster-Wide Task Slowdown Detection in Cloud System》被数据挖掘领域顶会ACM SIGKDD2024接收
|
机器学习/深度学习 并行计算 PyTorch
PyTorch中的多进程并行处理
这篇文章我们将介绍如何利用torch.multiprocessing模块,在PyTorch中实现高效的多进程处理。
555 1
|
12月前
|
机器学习/深度学习 运维 算法
异常检测的特征工程:提取有价值的信息
本文介绍了异常检测中的特征工程,涵盖背景、核心概念、算法原理及代码实例。异常检测旨在识别数据中的异常行为,广泛应用于金融、医疗等领域。特征工程通过提取、选择和创建特征,提升模型性能。文中详细讲解了统计特征(如均值、方差)、时间序列特征(如移动平均、差分)和域知识特征的提取方法,并提供了Python代码示例。最后讨论了未来的发展趋势与挑战,包括数据复杂性增加、跨领域应用、解释性需求等。
338 1
|
Java Linux Maven
用sdkman在linux上管理多个java版本
本文介绍了如何在Linux上使用SDKMAN来管理多个Java版本,包括安装SDKMAN、验证安装、列出和安装不同版本的JDK、Maven和Gradle,以及如何切换使用不同版本。
1179 0
|
机器学习/深度学习 运维 算法
利用机器学习进行异常检测的技术实践
【5月更文挑战第16天】本文探讨了利用机器学习进行异常检测的技术实践,强调了在大数据时代异常检测的重要性。机器学习通过无监督、有监督和半监督学习方法自动识别异常,常见算法包括KNN、LOF、K-means和GMM等。异常检测流程包括数据准备、特征工程、选择算法、训练模型、评估优化及部署。机器学习为异常检测提供了灵活性和准确性,但需结合具体问题选择合适方法。