带你读《Elastic Stack 实战手册》之59:——3.5.16.3.Anomaly detection(1)

简介: 带你读《Elastic Stack 实战手册》之59:——3.5.16.3.Anomaly detection(1)

3.5.16.3.Anomaly detection


创作人:张妙成

审稿人:胡征南

 

Elasticsearch 的 Anomaly detection 模块主要用于时序数据的异常检测、群体分析,根据既定模型,创建正常行为的标准基线来识别数据中的异常,通常是从 Elasticsearch 中提取数据进行分析,将异常结果展示在可视化的 Kibana 仪表盘中,用以解决一些基于规则或监控难以实时发现的问题。主要用途为分析过去和现在、预测未来。

 

一、基本概念简述

 

1. Jobs

 

Job 即一个异常检测作业,包含执行分析任务所需的配置信息和元数据,job 通过一个或多个 detector,将分析函数应用于数据中的指定字段,达到按照字段分析数据集的效果。

 

2.Datafeeds

 

Datafeed 可以理解成一种 pipline,例如,Datafeed 可以作为 Job 从 Elasticsearch 中选取数据集的规则,Datafeed 还可以在将数据发送到异常检测作业之前聚合数据有一定限制

 

3.Buckets(桶)

 

Bucket 是 Elasticsearch 中的一个集合概念,例如聚合结果最终表现形式是 bucket 集合,在机器学习中,则使用 bucket 的概念将时序数据分成批次进行处理。指定时间窗口的数据集合即为一个 bucket,bucket 的大小即每个时间窗口的数据量的大小, 也就是每次给 ML job 输送的数据量的大小。

4. Influencers

 

Influencer 即为影响因素,是可能促成数据异常的信息的字段,Influencer 可以是数据中的任何字段。

 

5. Calendars and scheduled events

 

在日历中指定日期或时间段为预期事件,机器学习 Job 不会在该期间内产生异常。主要用于持续时间较短且很少发生的场景,定期发生的事件无需创建计划事件,机器学习会自动识别处理。

 

6.Custom rules

 

Custom rule 即自定义规则,主要用于控制与调整机器学习检测器的分析结果,例如只关心

CPU 大于70%的异常,则在无监督学习的异常检测分析中,CPU 在70%以下的异常中不会生产异常结果。自定义规则还可应用于白名单的设置,例如信任的 IP 等场景。

 

7.Model snapshots

 

Model snapshot 即模型快照,主要用于存储机器学习的数据模型。异常检测是通过正常的行为的基线来推断的,该基线是由数据模型完成的,为了保证高可用,每个 job 的数据模型快照都保存到 ES 机器的内部索引,默认每 3-4h 生成一次快照。


二、工作原理

 

外部时序数据或者存储在 ES 索引中的时序数据,在经过 ES 机器学习 job 分析之后可以获取异常信息、预测后续数据,最终在 Kibana 展示,如果不依赖 Kibana,也可以通过 API 查看分析结果,结果存储在 ES 索引(.ml-anomalies)中。

 

image.png


机器学习 job 获取数据之后进行无监督学习,生成数据模型,并存入 ES 的 .ml-state 索引中。默认 3~4h 会生成一个 model snapshot,存入该索引。机器学习 job 通过学习出的模型对数据进行分析,并将分析结果存入 ES 的 .ml-anomalies 索引中。ml 相关数据的存储如下图所示。其中 job 信息时存在 .ml-config 索引中,calendar 等信息存储在 .ml-meta 索引中。


image.png


《Elastic Stack 实战手册》——三、产品能力——3.5 进阶篇——3.5.16. Machine learning ——3.5.16.3.Anomaly detection(2) https://developer.aliyun.com/article/1227224

 


相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
安全 Linux 数据安全/隐私保护
AWVS多平台安装(保姆级)教程
AWVS多平台安装(保姆级)教程
3663 0
|
机器学习/深度学习 网络协议 异构计算
浅析GPU通信技术(下)-GPUDirect RDMA
目录 浅析GPU通信技术(上)-GPUDirect P2P 浅析GPU通信技术(中)-NVLink 浅析GPU通信技术(下)-GPUDirect RDMA 1. 背景         前两篇文章我们介绍的GPUDirect P2P和NVLink技术可以大大提升GPU服务器单机的GPU通信性...
30134 0
|
C语言
C语言:指针数组
指针数组本质是数组,是一个存放指针的数组 代码如下: arr1和arr2就是指针数组
132 0
|
12月前
|
自然语言处理 安全 API
“跨境电商API解决方案:多语言多货币,全球销售无忧”
跨境电商API解决方案助力企业全球化布局,提供多语言支持(超100种语言)、多货币结算和实时汇率转换,简化跨境交易流程。基于RESTful架构设计,兼容性强,云端部署确保高可用性与稳定性。实际应用涵盖多平台库存同步、智能物流优化等场景,整合主流电商平台与物流服务商。同时,系统符合GDPR等国际合规标准,内置风控机制防范欺诈交易,保障数据安全与业务连续性,为企业提供全方位技术支持。
|
12月前
|
人工智能 自然语言处理 运维
AI agent跨平台云资源智能管理终端是什么
随着多云架构和混合IT环境的普及,企业面临跨平台资源协同效率低、操作复杂等问题。为此,跨平台云资源智能管理终端应运而生。它通过模块化架构与自动化引擎,将异构云环境中的资源统一管理,并提供对话式交互、批量操作与智能策略编排能力。典型产品如Chaterm,支持自然语言指令输入,实现从任务规划到执行反馈的闭环体验。其应用场景涵盖大规模服务器集群管理、跨云资源调度、复杂环境自动化配置等,显著提升效率与可靠性。实施时需关注兼容性、扩展性及安全性,建议从试点入手逐步推广,优化企业运维流程。
615 5
QGS
|
NoSQL 网络协议 Redis
Redis7配置哨兵模式(一主二从三哨兵)
Redis7配置哨兵模式(一主二从三哨兵)
QGS
1077 1
|
自然语言处理 测试技术 人工智能
Meta等最新研究:多token预测,提升大模型推理效率
【6月更文挑战第2天】Meta等机构的研究人员提出了一种新的大型语言模型训练方法——多token预测,以提高样本效率和推理速度。该方法要求模型同时预测多个接下来的token,而非传统的单一token预测,从而减少局部模式依赖,提高模型的宏观决策能力。实验表明,这种方法在提升模型性能和推理速度方面效果显著,尤其在编程任务中表现出色。然而,多token预测可能需要更多计算资源,并不适用于所有NLP任务,其在自然语言处理领域的应用仍有待深入研究。论文链接:https://arxiv.org/abs/2404.19737
868 7
|
弹性计算 安全 API
HTTP 405 Method Not Allowed:解析与解决
本文详细解析了HTTP 405 "Method Not Allowed" 错误,包括其定义、常见原因、示例代码及解决方案。通过检查API文档、修改请求方法或更新服务器配置,可有效解决此错误,提升Web开发效率。
10159 2
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能:深度学习与自然语言处理
探索人工智能:深度学习与自然语言处理
291 1
|
机器学习/深度学习 Java 数据安全/隐私保护
java基础 --- Java修饰符总结与应用
java基础 --- Java修饰符总结与应用
372 0

热门文章

最新文章