[VLDB 2025]面向Flink集群巡检的交叉对比学习异常检测

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 阿里云与华东师范大学合作论文《Noise Matters: Cross Contrastive Learning for Flink Anomaly Detection》被VLDB 2025接收。该研究聚焦Flink集群热点机器异常检测,提出跨对比学习方法,结合先验知识优化模型训练,有效应对噪声数据干扰,提升检测准确率。该技术已应用于Flink集群智能巡检系统,助力运维风险预警。

一.开篇


近日,由阿里云计算平台大数据基础工程技术团队主导,华东师范大学数据科学与工程学院合作的论文《Noise Matters: Cross Contrastive Learning for Flink Anomaly Detection》被数据库领域顶会 VLDB 2025接收。论文从新的视角分析 Flink 平台的热点机器问题。实现了基于神经网络的热点机器异常检测,与 SOTA 异常检测算法相比平均提升 F1 score 12.1%


二.背景


Flink 集群经常会遇到热点问题,此时被监控作业的延迟和 CPU 使用率不断升高并长期保持在高水平。这就需要检测异常时间序列,以定位出现热点的机器。然而,现有的无监督时间序列异常检测(UTAD)方法在这种场景下并不有效。我们发现有两个主要原因。首先,热点场景需要特别关注 Flink 特有的异常,比如缓慢上升型和高水平异常,而现有方法难以处理这类异常。其次,现有的异常检测方法通常假设训练数据集中不存在异常,但从实际运行的 Flink 集群中收集的数据往往含有噪声,这会导致这些方法把异常模式学习为正常模式。本文首先通过实验分析了现有方法在 Flink 场景下失败的原因。针对这些挑战,我们提出了一种跨对比方法提升异常检测性能。

三.挑战


640 (6).png


尽管已有方法进行时间序列的异常检测,但仍然存在以下限制:

限制一:除了检测已有的点级异常之外,我们的 Flink 场景还要求检测其特有的异常。例如,当某个节点上多个作业的延迟持续上升,或者上升后长期保持在高水平时,通常表明该节点出现了异常。然而,现有的最先进异常检测方法对这类异常并不敏感。基于重构的方法在 Flink 特有异常与正常数据之间往往只表现出较小的重构误差,因此无法识别出这类异常。基于关联的方法则是通过比较同一时间戳的不同视图来检测异常,但它们忽略了每个时间戳的上下文信息,这也使得发现 Flink 特有的异常变得困难。


限制二:我们面对的是来自实际运行 Flink 集群的非常大规模的时间序列数据。这导致收集到的训练数据集中包含大量异常和噪声。大多数传统的无监督异常检测方法都基于训练数据集相对干净、无噪声的假设,忽略了实际存在的异常和噪声。因此,这些方法的有效性容易受到异常和噪声的影响,表现并不理想。

四.破局


640 (7).png


我们不再像以前的方法那样在每个时间戳处计算重构误差,或者计算每个时间戳两种视图之间的差异,而是提出了一种新的跨对比学习方法,以更加关注 Flink 特有的异常。我们首先利用注意力机制从全局和局部两个角度学习表示,基于此进行跨对比学习。直观上看,正常时间序列中相邻时间戳的观测值彼此接近,因此它们的潜在表示应该相似。相比之下,当相邻时间戳中出现 Flink 特有异常(如缓慢上升趋势)时,我们希望学习到将它们的表示差异扩大。这带来了一个不同的异常检测机制,即通过测量相邻时间戳之间表示的距离,如果距离明显可区分,则检测为异常。


提出了一种新的损失函数,将先验知识引入到优化过程中,共同指导模型的训练,使模型即使在未知标签的情况下也能区分异常时间戳和正常时间戳。具体来说,我们为每个时间戳设定一个异常边界,该边界是其观测值的归一化分数,并将其用作先验知识,反映异常值与正常值之间的偏差。直观上,具有较小异常边界的正常时间戳,其观测值与归一化值偏差不大,因此可以尽可能优化其训练损失。而具有较大异常边界的异常时间戳,其训练损失不应被像正常时间戳那样充分优化,从而我们可以为这些异常时间戳分配更大的异常分数。因此,我们只将其训练损失优化到接近其异常边界的水平。通过这种方式,我们有效考虑了含有噪声的训练数据,减轻了异常和噪声对训练过程的影响,从而提高了异常检测的准确性。

五.应用

Noise Matters 技术已经整合进了 Flink 集群智能巡检体系中,有效地帮助运维人员对集群运行健康状况进行评估,提前发现可能的风险隐患。

/ END /

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
25天前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
简介:本文整理自阿里云高级技术专家李麟在Flink Forward Asia 2025新加坡站的分享,介绍了Flink 2.1 SQL在实时数据处理与AI融合方面的关键进展,包括AI函数集成、Join优化及未来发展方向,助力构建高效实时AI管道。
358 43
|
2月前
|
存储 SQL 测试技术
抖音集团基于Paimon的流式数据湖应用实践
本文整理自抖音集团数据工程师在Flink Forward Asia 2024的分享,围绕流式湖仓架构的背景、实践与未来展望展开。内容涵盖实时数仓架构演进、Paimon的应用与优化,以及在长周期指标计算和大流量场景下的落地实践经验。
238 0
|
28天前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
月之暗面发布开源模型Kimi K2,采用MoE架构,参数达1T,激活参数32B,具备强代码能力及Agent任务处理优势。在编程、工具调用、数学推理测试中表现优异。阿里云PAI-Model Gallery已支持云端部署,提供企业级方案。
120 0
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
|
20天前
|
自然语言处理 DataWorks 算法
数据开发再提速!DataWorks正式接入Qwen3-Coder
阿里云DataWorks平台正式接入Qwen3-Coder模型,用户通过Copilot智能助手可实现自然语言交互生成代码,提升数据开发效率。支持SQL/Python代码生成、优化及Notebook文件创建,适用于数据分析与算法构建,助力企业高效开发。
138 0
|
20天前
|
机器学习/深度学习 缓存 算法
解密Qwen3三连发:强化学习新算法GSPO!
强化学习(RL)是提升语言模型推理与问题求解能力的关键技术。然而,现有算法如 GRPO 在长期训练中存在严重不稳定性,限制了性能提升。为此,我们提出 **Group Sequence Policy Optimization (GSPO)**,通过在序列层面定义重要性比率并进行优化,显著提升了训练效率与稳定性。GSPO 在 MoE 模型训练中表现出色,无需依赖复杂策略即可实现高效训练,简化了 RL 基础设施。该算法已成功应用于 Qwen3 系列模型,推动 RL scaling 边界,释放模型潜能。
155 0
|
20天前
|
云安全 人工智能 安全
Ollama漏洞引发的“血案”—自建LLM的安全思考
「云安全技术观察」聚焦云计算时代安全技术前沿与实践,涵盖AI大模型风险、云原生安全体系建设及攻防对抗等内容,提供落地技术参考与前瞻性洞察。
121 0
|
25天前
|
人工智能 Rust IDE
计算机相关的软硬件开发工具分类
本文系统梳理了现代开发工具图谱,涵盖软件、硬件、AI等六大领域。软件开发部分对比了传统工具(如IntelliJ IDEA、SpringBoot)与新兴工具(如AI代码助手Cursor、边缘计算框架Workers),并列出国产替代方案(华为CodeArts、阿里OpenSumi)。硬件开发突出开源EDA工具KiCad和物联网OS Zephyr。AI领域对比了TensorFlow与JAX框架,推荐本地LLM工具Ollama。文章特别设置工具选型指南,针对不同场景推荐方案,如国产化需求建议PaddlePaddle
229 0
|
26天前
|
SQL 关系型数据库 Apache
从 Flink 到 Doris 的实时数据写入实践 —— 基于 Flink CDC 构建更实时高效的数据集成链路
本文将深入解析 Flink-Doris-Connector 三大典型场景中的设计与实现,并结合 Flink CDC 详细介绍了整库同步的解决方案,助力构建更加高效、稳定的实时数据处理体系。
559 0
从 Flink 到 Doris 的实时数据写入实践 —— 基于 Flink CDC 构建更实时高效的数据集成链路