[WWW2024]轻量数据依赖的异常检测重训练方法LARA

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《LARA: ALight and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection 》被WWW2024收录


开篇

近日,由阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《LARA: ALight and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection 》被WWW2024收录,该方法解决了云服务正常模式随时间不断变化,且在变化初期观测数据数量不足以支撑模型训练的问题。目前LARA仅使用1个包含40个时间片的样本重训练即可达到与目前最好方法使用充足数据重训练的异常检测精度。


背景

目前,可以解决正常模式更替变化的方法主要有迁移学习、元学习、基于信号处理的方法。但同时他们也存在一些弊端,并不完全适配当前问题:

1.迁移学习:迁移学习未考虑本问题中多个历史正常模式之间存在的时序关系。迁移学习把source domain的模型迁移到target domain中。其中,source domain和target domain的数据是对不同对象、同一任务的观测。而本问题是对同一对象同一任务在不同时刻的观测,即多个历史正常模式之间存在时序关系,离得近的正常模式对当前正常模式更具指导意义。

2.元学习:元学习同样未考虑历史正常模式之间的时序关系,同时,需要存储大量的历史数据。

3.基于信号处理的方法:这类方法推理阶段时间开销太大,无法在流量峰值处进行实时异常检测。


挑战

云服务环境多变,这导致异常检测模型需要进行频繁的重训练。频繁的重训练有以下几个问题:

1. 过拟合:在分布变化的初期,新分布的观测数据太少,对于大多数基于深度学习的神经网络,容易陷入过拟合。

2. 巨大训练开销:频繁重训练模型,会带来巨大的训练开销。


破局

image.png

因此,我们提出方法LARA解决上述问题。为了解决重训练新观测数据不足的问题,我们提出反刍模块,该模块使用老模型恢复历史分布中与新观测数据相似的数据,并使用历史数据与新观测数据一起估计每一个新观测数据的隐藏状态z。为了解决重训练计算开销大的问题,我们使用映射函数M_z和M_x分别把老模型输出的隐藏状态和重构数据映射为当前分布的隐藏状态估计值与新观测数据,并数学证明了映射函数令映射误差最小的最优形式为线性,极大降低了重训练开销。更进一步,我们根据M_z 与M_x的形式,提出一种相应的损失函数设计范式,可以保证重训练问题是一个凸问题,具有唯一全局最优解,从而保证较快的收敛速率,降低重训练计算开销,避免陷入过拟合。


应用

现已将LORA方法应用到飞天大数据AI管控平台ABM的异常检测算法服务中,减少异常检测算法的训练开销,辅助大数据平台进行异常的及时发现。

  • 论文标题:LARA: ALight and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection
  • 论文作者:陈飞佚,秦臻,周孟初,张颖莹,邓水光,范伦挺,庞观松,文青松
  • 论文pdf链接:https://arxiv.org/abs/2310.05668
相关文章
|
1月前
|
机器学习/深度学习 计算机视觉 网络架构
【GhostNet】复现CVPR2020| 保证模型轻量化的同时,提升网络的性能表现
【GhostNet】复现CVPR2020| 保证模型轻量化的同时,提升网络的性能表现
560 0
【GhostNet】复现CVPR2020| 保证模型轻量化的同时,提升网络的性能表现
|
7天前
|
机器学习/深度学习 并行计算 TensorFlow
揭示 GPU 上的批处理策略
【6月更文挑战第9天】批处理策略是优化GPU效率的关键技术,通过组合处理多个数据样本,减少数据传输、充分利用并行计算,提升GPU计算效率。在TensorFlow示例中,批处理用于神经网络训练,但选择合适的批处理大小需考虑GPU内存、模型复杂度和数据特性,以达到最佳性能。批处理策略将持续发展,支持深度学习的进步。
15 7
|
自然语言处理 算法 数据挖掘
自蒸馏:一种简单高效的优化方式
背景知识蒸馏(knowledge distillation)指的是将预训练好的教师模型的知识通过蒸馏的方式迁移至学生模型,一般来说,教师模型会比学生模型网络容量更大,模型结构更复杂。对于学生而言,主要增益信息来自于更强的模型产出的带有更多可信信息的soft_label。例如下右图中,两个“2”对应的hard_label都是一样的,即0-9分类中,仅“2”类别对应概率为1.0,而soft_label
自蒸馏:一种简单高效的优化方式
|
2天前
|
机器学习/深度学习 计算机视觉 异构计算
【保姆级教程|YOLOv8改进】【4】添加双层路由注意力机制:BiLevelRoutingAttention,性能和效率十分不错
【保姆级教程|YOLOv8改进】【4】添加双层路由注意力机制:BiLevelRoutingAttention,性能和效率十分不错
|
11天前
|
监控 安全
计算机网络:关键性能指标与非性能特征解析
计算机网络:关键性能指标与非性能特征解析
220 0
|
1月前
|
机器学习/深度学习 数据可视化
数据分享|R语言生存分析模型因果分析:非参数估计、IP加权风险模型、结构嵌套加速失效(AFT)模型分析流行病学随访研究数据
数据分享|R语言生存分析模型因果分析:非参数估计、IP加权风险模型、结构嵌套加速失效(AFT)模型分析流行病学随访研究数据
|
7月前
|
算法
Deepwalk算法复现: 基于 deepwalk的网络节点分类 聚类分析 完整代码+数据
Deepwalk算法复现: 基于 deepwalk的网络节点分类 聚类分析 完整代码+数据
65 0
|
8月前
|
机器学习/深度学习 人工智能 算法
可训练软决策树集成的多实例学习
可训练软决策树集成的多实例学习
184 0
|
11月前
|
机器学习/深度学习 算法 计算机视觉
在对比学习中引入显式跨图像相似度建模能力,中南大学显著提高无监督表征的泛化能力(1)
在对比学习中引入显式跨图像相似度建模能力,中南大学显著提高无监督表征的泛化能力
124 0
|
11月前
|
算法 数据挖掘 计算机视觉
在对比学习中引入显式跨图像相似度建模能力,中南大学显著提高无监督表征的泛化能力(2)
在对比学习中引入显式跨图像相似度建模能力,中南大学显著提高无监督表征的泛化能力
126 0