Elastic:机器学习的实践 - multi metric job

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Kibana 中的 multi metric job 向导提供了一种使用多个检测器创建更复杂作业的简单方法。例如,在单个度量标准作业中,你正在跟踪总请求与时间的关系。你可能还希望跟踪其他指标,例如平均响应时间或拒绝请求的最大数量。你可以为多个指标作业合并它们,而不是为每个指标创建作业。

这篇文章是之前文章 “机器学习的实践 - single metric job” 的续篇。如果你对 Elastic 的机器学习还是不太了解的话,请参阅之前的文章,并配置好自己的 Elasticsearch 机器。机器学习需要白金版许可。在今天的文章中,我将详细介绍如何使用机器学习创建一个 multi metric job。

文本作者:刘晓国,Elastic 公司社区布道师。新加坡国立大学硕士,西北工业大学硕士,曾就职于新加坡科技,康柏电脑,通用汽车,爱立信,诺基亚,Linaro,Ubuntu,Vantiq 等企业。

如果你想一站式快速体验 Elasticsearch 所有功能(免费提供机器学习、 X-pack 能力),开通 阿里云 Elasticsearch 1核2G,即可首月免费试用。

Kibana 中的 multi metric job 向导提供了一种使用多个检测器创建更复杂作业的简单方法。例如,在单个度量标准作业中,你正在跟踪总请求与时间的关系。你可能还希望跟踪其他指标,例如平均响应时间或拒绝请求的最大数量。你可以为多个指标作业合并它们,而不是为每个指标创建作业。

你还可以使用多指标作业,根据分类字段将单个时间序列拆分为多个时间序列。例如,你可以根据数据的主机名,位置或用户拆分数据。每个时间序列都是独立建模的。通过在每个实体的基础上查看时间模式,你可能会发现本来可以隐藏在集中视图中的事物。

从概念上讲,你可以将其视为运行许多独立的单指标作业。但是,通过将它们捆绑在一个多指标作业中,你可以看到该作业中所有指标和所有实体的总体得分和共享影响者。因此,多指标作业比具有许多独立的单个指标作业更好地扩展,并且当影响者在探测器之间共享时,可以提供更好的结果。

准备数据

在今天的练习中,我们将使用 Elastic 自带的索引 eCommerce 来做。打开 Kibana:

image.png

image.png

点击上面的 Add data 按钮,这样,我们就完成了数据的导入:

image.png

我们在 Elasticsearch 中可以发现一个叫做 kibana_sample_data_ecommerce 的索引

image.png

创建 机器学习 multi metric job

打开机器学习应用:

image.png

点击 Manage jobs:

image.png

点击 Create job:

image.png

选择 kibana_sample_data_ecommerce 索引:

image.png

在这里,我们选择 Multi metric。正如上面描述的那样,multi metric 通过按类别字段划分时间序列来检测多指标中的异常。

image.png

我们选择使用整个索引的数据。点击 Next 按钮:

image.png

我们选择 High sum(taxful_total_price):

image.png

接下来,我们把分析通过 customer_full_name 来进行分别分析。同时,我们也选择 customer_full_name 及 category 来查看我们选择的这些 influencer 有多少是对我们的结果有影响的,影响的程度是什么样的。

点击上面的 Next 按钮:

image.png

我们把这个机器学习的任务取一个名字叫做 multi_metric_job。点击 Next 按钮:

image.png

上面显示,我们的创建是成功的。点击 Next 按钮:

image.png

在上面,我们可以看出来针对每个客户进行分析。点击 Create job 按钮:

image.png

等机器学习完成之后,我们点击 View results 按钮:

image.png

在上面,我们看出来一些异常。在上面,我们可以看到一些蓝色和黄色的长方形块。按照我们之前的描述:

Warning (blue): 分数低于25
Minor (yellow): 分数介于25和50之间
Major (orange): 分数介于50和75之间
Critical (red): 分数介于75和100之间

在上面,它显示了整个客户的异常情况,在下面也分别分析了各个客户的异常情况。

我们也可以按照之前选择的 category influencer 来查看每个 category 的影响:

image.png


我们的异常蓝色表示异常分数低于25分,而黄色的异常分数介于25-50之间。是 Warning 和 Minor 级别的异常。

image.png

向下滚动,我们可以查看异常的详细情况。点击 July 5th 2020 那个异常:

image.png

上面标明,这个叫做 Stephanie Baker 的客户,按照正常的分析,他会在 July 5th, 2020 会花钱 0.152,可是他事实上什么也没有花。这个和他的平常的习惯不一样。是有什么事情发生吗?

在左边,我们可以查看到 top 10 的 influencer:

image.png


因为这个是一个 multi metric job,我们也可以把它分解成为每一个 single metric job 那样进行查看:

image.png

点击 Single Metric Viewer:

image.png

image.png

好了,今天就先展示到这里。希望通过这个练习大家知道如何通过机器学习来分析数据的异常。

声明:
本文版权归作者所有,未经许可不得擅自转载或引用。


image.png

阿里云Elastic Stack】100%兼容开源ES,独有9大能力,提供免费 X-pack服务(单节点价值$6000)

相关活动


更多折扣活动,请访问阿里云 Elasticsearch 官网

阿里云 Elasticsearch 商业通用版,1核2G ,SSD 20G首月免费
阿里云 Logstash 2核4G首月免费
下载白皮书:Elasticsearch 八大经典场景应用


image.png

image.png

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
3月前
|
机器学习/深度学习 人工智能 算法
探索机器学习:从理论到实践的旅程
【8月更文挑战第26天】机器学习,这个听起来既神秘又充满无限可能的领域,实际上已经深入到我们生活的方方面面。本文将通过一次虚拟的“旅行”,带领读者了解机器学习的基本概念、主要技术和应用实例,同时提供一个简单的Python代码示例,帮助初学者迈出探索这一激动人心领域的第一步。无论你是科技爱好者,还是对未来充满好奇的学生,这篇文章都将成为你理解并应用机器学习技术的启航点。
|
1月前
|
机器学习/深度学习 数据采集 人工智能
AI与机器学习:从理论到实践
【10月更文挑战第2天】本文将深入探讨AI和机器学习的基本概念,以及它们如何从理论转化为实际的应用。我们将通过Python代码示例,展示如何使用机器学习库scikit-learn进行数据预处理、模型训练和预测。无论你是AI领域的初学者,还是有一定基础的开发者,这篇文章都将为你提供有价值的信息和知识。
|
7天前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
17 2
|
8天前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到实践
【10月更文挑战第35天】在这篇文章中,我们将深入探讨机器学习的世界。我们将从基础理论开始,然后逐步过渡到实际应用,最后通过代码示例来展示如何实现一个简单的机器学习模型。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的信息和见解。
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
46 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
1月前
|
机器学习/深度学习 算法 Python
探索机器学习中的决策树算法:从理论到实践
【10月更文挑战第5天】本文旨在通过浅显易懂的语言,带领读者了解并实现一个基础的决策树模型。我们将从决策树的基本概念出发,逐步深入其构建过程,包括特征选择、树的生成与剪枝等关键技术点,并以一个简单的例子演示如何用Python代码实现一个决策树分类器。文章不仅注重理论阐述,更侧重于实际操作,以期帮助初学者快速入门并在真实数据上应用这一算法。
|
1月前
|
机器学习/深度学习 算法 PyTorch
【机器学习】大模型环境下的应用:计算机视觉的探索与实践
【机器学习】大模型环境下的应用:计算机视觉的探索与实践
56 1
|
1月前
|
机器学习/深度学习 算法 自动驾驶
探索机器学习:从理论到实践
本文将带你进入机器学习的世界,从基本概念出发,深入探讨其背后的数学原理,再通过Python代码示例,展示如何实际应用这些理论。无论你是初学者还是有经验的开发者,都能从中获益。
|
1月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的回归分析:理论与实践
机器学习中的回归分析:理论与实践
|
2月前
|
机器学习/深度学习 算法 自动驾驶
探索机器学习:从理论到实践
【9月更文挑战第24天】本文将带你走进机器学习的世界,了解其基本概念,探索其背后的数学原理,并通过Python代码示例,展示如何实现一个简单的线性回归模型。无论你是初学者还是有经验的开发者,都能在这篇文章中找到新的视角和深入的理解。
42 9