Elastic:机器学习的实践 - population job

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 群体( population)分析检测异常:通过机器学习分析可建立 “典型” 用户,机器或其他实体在指定时间段内所做的工作的概况,然后识别与其它群体相比表现异常情况。
文本作者:刘晓国,Elastic 公司社区布道师。新加坡国立大学硕士,西北工业大学硕士,曾就职于新加坡科技,康柏电脑,通用汽车,爱立信,诺基亚,Linaro,Ubuntu,Vantiq 等企业。

如果你是新用户,并想一站式快速体验 Elasticsearch 所有功能(免费提供机器学习、 X-pack 能力),开通 阿里云 Elasticsearch 1核2G,即可首月免费试用。

在以下情况下,数据中的实体或事件可以被认为是异常的:

他们的行为会随着时间而变化,相对于他们以前的行为,还是
它们的行为不同于指定群体中的其他实体。

image.png

在之前的文章:
Elastic:机器学习的实践 - single metric job
Elastic:机器学习的实践 - multi metric job

我们已经展示了如何检测上面的第一种情况。后一种检测异常值的方法称为 population 分析,也就是群体分析。机器学习分析可建立 “典型” 用户,机器或其他实体在指定时间段内所做的工作的概况,然后识别与其它群体相比表现异常的时候。

当总体上各个群体的行为大多是同质的,并且你想要识别异常值时,这种类型的分析最有用。通常,当群体成员内在地具有截然不同的行为时,群体分析是没有用的。但是,你可以将数据分成行为相似的组,并将其作为单独的作业运行。例如,你可以在 datafeed 中使用查询过滤器对数据进行细分,也可以使用 partition_field_name 拆分不同组的分析。

群体分析的伸缩性很好,并且消耗的资源比每个系列的单独分析都低。例如,你可以分析数十万或数百万个实体的群体。

下面,我们使用它在上一个例子 “Elastic:机器学习的实践 - multi metric job” 所使用的数据来做一个展示。如果你还没导入数据,请参阅那篇文章,把数据导入进去。

创建 population job

打开 Kibana:
image.png

点击 Manage jobs:
image.png

点击  Create job:
image.png

选中 eCommerce 索引:
image.png

选中 Population:
image.png

点击 Next:
image.png

这一次,我们选择 category.keyword 作为 population 字段,同时选择 High sum(taxful_total_price) 作为指标分析。点击 Next:
image.png

我们取一个好听的名字 population_job。点击 Next 按钮:
image.png

上面显示检查没有错误。点击 Next 按钮:
image.png

点击 Create job 按钮:
image.png

相比较之前的 single metric job 及 multi metric job,我们发现这次的机器学习计算时间非常短,也印证了它所消耗的资源不多。点击上面的 View results 按钮:
image.png

如上所示,我们可以发现一个异常,是针对 Men's Clothing 的这个 category。我们向下滚动:
image.png

点击那个红色标识的异常事件:
image.png

上面显示这个 Men's Clothing 类的商品和如下的其它类的商品比较:

image.png

存在异常,按照机器学习的计算(相比较其它类商品,在同一个 bucket span里),taxful_total_price 的值应该在 67.8,但是实际值在 2250。细心的分析师需要分析这个数据,是因为父亲节到了的缘故吗?还是因为最近在男装上投入了大量的广告所致?

好了,今天的文章先写到这里。请接下来继续关注我的机器学习的文章。

声明:本文版权归作者所有,未经许可不得擅自转载或引用。

image.png

阿里云Elastic Stack】100%兼容开源ES,独有9大能力,提供免费 X-pack服务(单节点价值$6000)

相关活动


更多折扣活动,请访问阿里云 Elasticsearch 官网

阿里云 Elasticsearch 商业通用版,1核2G ,SSD 20G首月免费
阿里云 Logstash 2核4G首月免费
独家下载 |《开源与云Elasticsearch应用剖析》
下载白皮书:Elasticsearch 八大经典场景应用


image.png

image.png

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
1月前
|
机器学习/深度学习 数据采集 数据处理
构建高效机器学习模型的策略与实践
【2月更文挑战第14天】 在数据驱动的时代,机器学习已成为智能系统的核心。本文将探讨构建高效机器学习模型的关键技术要素,包括数据预处理、特征工程、模型选择和调参策略等。通过实例分析,我们将展示如何优化模型性能,减少过拟合风险,并提高泛化能力。文章旨在为开发者提供实用的技术指导,帮助他们在实际项目中实现机器学习模型的高效构建与应用。
|
1月前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的策略与实践
【2月更文挑战第23天】 在数据科学领域,构建一个高效的机器学习模型是至关重要的。本文旨在探讨并提出一系列策略和最佳实践,以指导读者如何从数据处理到模型部署的各个阶段优化其机器学习项目。我们将重点讨论特征工程、算法选择、超参数调整以及模型评估等关键环节,并通过案例分析展示如何应对常见的挑战和误区。文章的目的是为从业者提供实用的指南,帮助他们构建出既准确又高效的机器学习系统。
|
7天前
|
存储 JSON 自然语言处理
大模型服务平台百炼之模型训练与调优实践分享|快来围观~
模型调优是通过Fine-tuning训练模式提高模型效果的功能模块,作为重要的大模型效果优化方式,用户可以通过构建符合业务场景任务的训练集,调整参数训练模型,训练模型学习业务数据和业务逻辑,最终提高在业务场景中的模型效果。
|
1月前
|
机器学习/深度学习 前端开发 算法
利用机器学习优化Web前端性能的探索与实践
本文将介绍如何利用机器学习技术来优化Web前端性能,探讨机器学习在前端开发中的应用,以及通过实际案例展示机器学习算法对前端性能优化的效果。通过结合前端技术和机器学习,提升Web应用的用户体验和性能表现。
|
1月前
|
机器学习/深度学习 数据采集 人工智能
构建高效机器学习模型的策略与实践
【2月更文挑战第26天】 在当今数据驱动的时代,构建高效的机器学习模型已经成为了企业获取竞争优势的关键。本文将探讨一系列实用的策略和技术,旨在指导读者如何从数据准备到模型部署的全过程中优化其机器学习项目。我们将重点讨论特征工程的重要性、超参数调优的技巧、以及模型评估和验证的最佳实践。通过这些方法的应用,读者可以提升模型的性能,确保在现实世界的复杂问题中达到更高的准确率和泛化能力。
|
1月前
|
机器学习/深度学习 数据采集 大数据
构建高效机器学习模型的策略与实践
【2月更文挑战第26天】 在数据驱动的时代,机器学习已成为解决复杂问题的重要工具。本文旨在探讨如何构建高效的机器学习模型,从数据预处理、特征选择、模型调优等方面进行详细阐述。我们将介绍一些实用的技巧和方法,帮助读者提高模型的性能和泛化能力。
|
1月前
|
机器学习/深度学习 算法 数据处理
构建高效机器学习模型的策略与实践
【2月更文挑战第25天】本文旨在探讨如何通过一系列策略性步骤来构建一个高效的机器学习模型。我们将从数据处理的重要性讲起,接着讨论特征选择的艺术以及模型训练的技巧。文章将提供实用的建议,并通过案例分析展示如何在实践中应用这些策略,以期帮助数据科学家和开发者提高他们的模型性能。
|
1月前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的策略与实践
【2月更文挑战第23天】 在数据驱动的时代,机器学习已成为解决复杂问题的重要工具。本文旨在探讨构建高效机器学习模型的关键策略与实践方法,通过分析数据预处理、特征工程、模型选择及调参等步骤,提出提升模型性能的有效途径。文中将结合案例分析,展示如何在实际项目中应用这些策略,以期为读者提供一套系统的方法论,帮助其优化机器学习工作流程,提高问题解决效率。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习:从基础概念到应用实践
探索机器学习:从基础概念到应用实践
14 0
|
1月前
|
机器学习/深度学习 数据采集 自然语言处理
构建高效机器学习模型的策略与实践
【2月更文挑战第20天】 在数据科学的黄金时代,机器学习已成为解决复杂问题的利器。本文将探讨如何构建一个高效的机器学习模型,包括数据预处理、特征选择、模型训练和调优等关键步骤。我们将通过实例展示如何应用这些策略,以提高模型的准确性和泛化能力。