[WWW2024]轻量数据依赖的异常检测重训练方法LARA

简介: 阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《LARA: ALight and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection 》被WWW2024收录


开篇

近日,由阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《LARA: ALight and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection 》被WWW2024收录,该方法解决了云服务正常模式随时间不断变化,且在变化初期观测数据数量不足以支撑模型训练的问题。目前LARA仅使用1个包含40个时间片的样本重训练即可达到与目前最好方法使用充足数据重训练的异常检测精度。


背景

目前,可以解决正常模式更替变化的方法主要有迁移学习、元学习、基于信号处理的方法。但同时他们也存在一些弊端,并不完全适配当前问题:

1.迁移学习:迁移学习未考虑本问题中多个历史正常模式之间存在的时序关系。迁移学习把source domain的模型迁移到target domain中。其中,source domain和target domain的数据是对不同对象、同一任务的观测。而本问题是对同一对象同一任务在不同时刻的观测,即多个历史正常模式之间存在时序关系,离得近的正常模式对当前正常模式更具指导意义。

2.元学习:元学习同样未考虑历史正常模式之间的时序关系,同时,需要存储大量的历史数据。

3.基于信号处理的方法:这类方法推理阶段时间开销太大,无法在流量峰值处进行实时异常检测。


挑战

云服务环境多变,这导致异常检测模型需要进行频繁的重训练。频繁的重训练有以下几个问题:

1. 过拟合:在分布变化的初期,新分布的观测数据太少,对于大多数基于深度学习的神经网络,容易陷入过拟合。

2. 巨大训练开销:频繁重训练模型,会带来巨大的训练开销。


破局

image.png

因此,我们提出方法LARA解决上述问题。为了解决重训练新观测数据不足的问题,我们提出反刍模块,该模块使用老模型恢复历史分布中与新观测数据相似的数据,并使用历史数据与新观测数据一起估计每一个新观测数据的隐藏状态z。为了解决重训练计算开销大的问题,我们使用映射函数M_z和M_x分别把老模型输出的隐藏状态和重构数据映射为当前分布的隐藏状态估计值与新观测数据,并数学证明了映射函数令映射误差最小的最优形式为线性,极大降低了重训练开销。更进一步,我们根据M_z 与M_x的形式,提出一种相应的损失函数设计范式,可以保证重训练问题是一个凸问题,具有唯一全局最优解,从而保证较快的收敛速率,降低重训练计算开销,避免陷入过拟合。


应用

现已将LORA方法应用到飞天大数据AI管控平台ABM的异常检测算法服务中,减少异常检测算法的训练开销,辅助大数据平台进行异常的及时发现。

  • 论文标题:LARA: ALight and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection
  • 论文作者:陈飞佚,秦臻,周孟初,张颖莹,邓水光,范伦挺,庞观松,文青松
  • 论文pdf链接:https://arxiv.org/abs/2310.05668
相关文章
|
监控 关系型数据库 MySQL
MySQL 5.7在高并发下性能劣化问题的详细剖析
TL;DR MySQL 5.7高并发读写混合场景下rt飙升,业务系统大量超时报错。本文总结了阿里业务场景下遇到的坑,剖析问题背后的原因,帮助读者更好的理解MySQL内核原理,降低升级MySQL 5.7的风险。
10186 0
|
3月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。
|
机器学习/深度学习 运维 算法
[ICDE2024]多正常模式感知的频域异常检测算法MACE
阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Learning Multi-Pattern Normalities in the Frequency Domain for Efficient Time Series Anomaly Detection》被ICDE2024收录,该论文解决了云服务环境中不同服务存在不同正常模式,而传统神经网络一个训练好的模型只能较好捕捉一种或少数几种正常模式的问题,该论文提出的方法可以使用一个统一模型对不同服务进行检测,就达到比为每一个服务定制一个模型的SOTA方法更好的效果。
|
机器学习/深度学习 人工智能 运维
[ICLR2024]基于对比稀疏扰动技术的时间序列解释框架ContraLSP
《Explaining Time Series via Contrastive and Locally Sparse Perturbations》被机器学习领域顶会ICLR 2024接收。该论文提出了一种创新的基于扰动技术的时间序列解释框架ContraLSP,该框架主要包含一个学习反事实扰动的目标函数和一个平滑条件下稀疏门结构的压缩器。论文在白盒时序预测,黑盒时序分类等仿真数据,和一个真实时序数据集分类任务中进行了实验,ContraLSP在解释性能上超越了SOTA模型,显著提升了时间序列数据解释的质量。
|
11月前
|
机器学习/深度学习 存储 运维
[WWW2024]轻量数据依赖的异常检测重训练方法LARA
[WWW2024]轻量数据依赖的异常检测重训练方法LARA
115 0
|
存储 人工智能 搜索推荐
RAG系统的7个检索指标:信息检索任务准确性评估指南
大型语言模型(LLMs)在生成式AI领域备受关注,但其知识局限性和幻觉问题仍具挑战。检索增强生成(RAG)通过引入外部知识和上下文,有效解决了这些问题,并成为2024年最具影响力的AI技术之一。RAG评估需超越简单的实现方式,建立有效的性能度量标准。本文重点讨论了七个核心检索指标,包括准确率、精确率、召回率、F1分数、平均倒数排名(MRR)、平均精确率均值(MAP)和归一化折损累积增益(nDCG),为评估和优化RAG系统提供了重要依据。这些指标不仅在RAG中发挥作用,还广泛应用于搜索引擎、电子商务、推荐系统等领域。
7001 2
RAG系统的7个检索指标:信息检索任务准确性评估指南
|
Ubuntu 编译器 开发工具
香橙派5Pro+虚拟机Ubuntu18.04交叉编译+Opencv4.7
香橙派5Pro+虚拟机Ubuntu18.04交叉编译+Opencv4.7
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
近日,由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。
|
自然语言处理 关系型数据库 MySQL
PHP编程入门:构建你的第一个网页应用
【10月更文挑战第29天】本文旨在引导初学者步入PHP编程的世界,通过深入浅出的方式介绍PHP的基础知识,并指导读者如何动手实践,搭建一个简单的网页应用。文章不仅涉及PHP代码的编写,还包括了环境配置、项目结构设计以及前后端交互的基本概念。适合对Web开发感兴趣且希望快速入门的朋友阅读。
222 0
|
SQL Java 数据库连接
【Java笔记+踩坑】MyBatisPlus基础
MyBatisPlus简介、标准数据层开发CRUD、业务层继承IService、ServiceImpl、条件查询、LambdaQueryWrapper、id生成策略、逻辑删除、乐观锁@Version、代码生成器、ActiveRecord
【Java笔记+踩坑】MyBatisPlus基础