带你读《Elastic Stack 实战手册》之60:——3.5.16.4.Data frame analytics(1)

简介: 带你读《Elastic Stack 实战手册》之60:——3.5.16.4.Data frame analytics(1)

3.5.16.4.Data frame analytics


创作人:刘晓国

编辑:胡征南

 

数据集分析需要二维结构化数据,可以通过 Elasticsearch 的 3.5.13章节的 Transforms 功能,将数据转化为用于分析的数据集。

 

数据集分析可以可以对数据执行多种不同的分析任务,注释对应的结果。查阅3.5.16章节的

Setup and securuty 可以了解分析需要的许可证和安全权限。


总览

 

数据集分析可以可以对数据执行多种不同的分析任务,并注释对应的结果。通过数据集分析可以深入洞察数据;异常值检测可以识别出数据集中不寻常的点;回归分析可以预测数据的发展趋势;聚类分析可以预测给定数据集的分类;模型推断可以使用训练好的机器学习模型进行连续分析。

 

数据集分析会通过创建数据副本的方式保障源数据的完整性。可以对数据集进行分片和切块而不影响到原有数据。

 

可以通过已经标注好的数据集和分析 API 来评估性能和结果,也可以通过已标注数据理解错误分布和识别异常值。

 

机器学习的种类:


image.png


从上面的图中,我们可以看出来机器学习分为两种:

 

l Unsupervised:无监督的学习

l Supervised: 监督学习

 

Anomaly Detection 和 Outlier Detection 是数据驱动的,不需要用户指出正常还是异常,这称为无监督机器学习。无监督机器学习是使用户熟悉ML的重要第一步

 

但是,有一类用例需要通过使用带有标签数据的模型来训练,因此需要一些用户参与,以便你可以使用它对未标签数据进行预测,这就是所谓的 “监督学习”。借助监督学习,你可以训练机器学习模型以基于标记数据学习模式。


image.png

 我们可以在监督学习模式下,利用现有的已经被证实的例子作为范例进行学习,从而建立一个 ML Supervised 模型。我们也可以利用这个模型对未来的数据进行推断:

image.png


相关概念

 

本章节主要是解释 Elastic 机器学习中数据集分析及效果评估 API 的相关基础概念。

 

l 异常值检测

l 检测和分析异常值,常用于错误和异常分析

 

l 回归分析

l 一种机器学习分析方法,分析数据字段之间的关系,并对这些关系做进一步的预测

 

l 聚类分析

l 一种机器学习分析方法,对数据集数据进行分类。如:预测贷款风险分类、音乐分类、根据 DNA 序列检测潜在癌细胞等

 

l 模型推断

l 模型推断是一种对机器学习持续改进的功能,用于天气预测等

 

l 数据集评估

l 使用数据集评估 API 评估数据集表现,理解错误分布和异常值

 

l 特征编码

l 机器学习模型只能处理数字类型,此功能用于将特征值转换为数字类型


l 特征处理器

l 用于处理特征数据,包括频率编码、多值编码、n-gram 编码,独热编码、Target mean 编码

 

l 特征重要性

l 用于判断回归分析和聚类分析中的特征重要性

 

l 超参数优化

l 可以通过 API 获取模型超参数,并进行对应优化

 

l 模型管理

l 模型上传下载、应用于新的数据集


API 

数据集分析API主要包括分析API、评估API及模型管理 API

 

l 分析 API 基础地址:/_ml/data_frame/analytics

l 评估 API 基础地址:/_ml/data_frame/_evaluate

l 模型管理基础地址:/_ml/trained_models/

 

案例集

 

Outlier Detection

 

Outlier Detection,也称作为异常值检测。它是属于 Unsupervised 机器学习的一个部分。它是用于发现以 entity 为基础的数据集中的异常。在Transforms章节中,我们已经了解了如何把一个时序的数据集转为以 entity 为基础的数据集。如果你的原始数据集本身就是一个以

entity 为基础的数据集,我们就不需要做任何的转换了。我们就可以直接对数据进行 Outlier Dection。 


在进行 Outlier Detection 展示之前,我们先来简单地了解一下 Outlier Detection 是如何工作的。 我们先拿一个南瓜作为例子来进行描述。我们知道一个南瓜含有重量(weight)及周长(circumference)。

 

image.png


假如我们我们有如下的一个统计图:


image.png


如图所示,在通常的情况下周长越长,那么南瓜的重量就越大。按照这个说法,我们很容易解释左下角及右上角的一些数据。我们用肉眼很容易发现 A 及 B 是两个异类。Elastic 里的机器学习 Outlier Detection 其实按原理就是基于这种理解来进行计算的,只不过它使用了算术的方法来进行计算的。

 

在 Elastic Stack 的 Outlier Detection 中,它由四种互补的技术来实现的:

 image.png


回顾之前的例子,A 及 B 被视为异常是因为它们远离大多数正常南瓜所在的区域。这让我们创建一个公式来计算任何一个数据和其它数据之间的距离。当这些数据的距离相比较其它的要大很多,那么就可以视为异常。我们可以通过计算一个数据到它的 kth-nearest 附近数据的距离及平均距离来算出异常值。这个值将计入总的异常分数。尽管这种方法在大多数情况下非常有效,但是针对一些数据比较分散的数据集来说,所有的数据和其它的数据的距离都几乎相当,或者说都很远。我们在这种情况下需要测量这个点周围的数据密度来确定这个点是否异常。


image.png

如上所示,我们使用了另外的两个技术来测量一个点和周围的点的密度。通过这个技术我们能了解任何一个点的周围的点到底离它有多近,从而测出这个点的密度。通过这两个技术,我们可以得出另外一个分数。通过上面四种互补技术的运用,我们可以得出一个介于 0 到 1 的分数。这个分数越接近于 1,那么代表该数据越异常。

 



《Elastic Stack 实战手册》——三、产品能力——3.5 进阶篇——3.5.16. Machine learning——3.5.16.4.Data frame analytics(2) https://developer.aliyun.com/article/1227192


相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
存储 Java 编译器
深入理解 Java 泛型和类型擦除
【4月更文挑战第19天】Java泛型是参数化类型,增强安全性与可读性,但存在类型擦除机制。类型擦除保证与旧版本兼容,优化性能,但也导致运行时无法访问泛型信息、类型匹配问题及数组创建限制。为应对这些问题,可使用Object类、instanceof运算符,或借助Guava库的TypeToken获取运行时类型信息。
371 0
|
5月前
|
人工智能 自然语言处理 安全
Claude Code 插件登陆 VS Code:开发者迎来 AI 编程新利器
Anthropic正式发布Claude Code——VS Code官方插件,支持多语言智能补全、代码解释、错误诊断与安全重构。隐私优先、长上下文(200K tokens)处理能力强,显著优于Copilot的可解释性与代码质量,已获开发者广泛好评。(239字)
8773 5
|
5月前
|
IDE 安全 开发工具
告别频繁切换分支!用 Git Worktrees + Claude Code 构建高效并行开发流
本文介绍 Git Worktrees 与 Claude Code 的高效组合:用 Worktrees 创建多分支独立工作区,零拷贝、秒级切换;Claude 则在隔离环境中安全试错、并行开发。告别 stash 焦虑,实现真正并行开发流。(239字)
3826 1
|
10月前
|
JSON 搜索推荐 机器人
直播间自动发言机器人,抖音快手小红书哔哩哔哩机器人, 自动评论app机器人打字弹幕脚本
多平台支持:整合抖音、哔哩哔哩等平台的自动化操作 智能评论生成:结合视频内容动态生成个性化评论
|
11月前
|
安全 API 数据安全/隐私保护
低代码革命:API无代码集成如何让企业“3天上线一个生态”?
在数字化转型浪潮中,API成为释放数据价值、提升企业效率的核心。本文详解API架构设计、安全实践与跨平台集成,为CTO提供效率提升指南,涵盖微服务、安全认证、协议选择、低代码集成及未来趋势,助力企业构建敏捷、安全、高效的数字生态。
|
人工智能 边缘计算 5G
5G时代,别让能耗成为“隐形杀手”——聊聊5G网络的能耗管理
5G时代,别让能耗成为“隐形杀手”——聊聊5G网络的能耗管理
778 13
|
测试技术
Squaretest自动生成单元测试
Squaretest自动生成单元测试
991 8
Squaretest自动生成单元测试
|
10月前
|
机器学习/深度学习 传感器 人工智能
什么叫通用人工智能?7大维度看清海内外AGI发展趋势
AGI探索之路充满矛盾与挑战。一边是AI在算法设计和数学难题上超越人类,另一边却在复杂推理中“放弃思考”。从技术突破到伦理治理,从算力竞赛到认知革命,AGI正重塑智能本质,或终将开创一种全新的理解世界的方式。
644 0
|
机器学习/深度学习 人工智能 算法
ai赋能科技
本内容探讨了AI技术在教育领域的深度应用,涵盖教学设计、课堂互动、科研赋能、教学管理和伦理实践五大方面。从智能备课到动态学情分析,从跨学科创新到自动化评估,展示了AI如何优化教育全流程。同时强调数据安全与算法公平性,确保技术发展不偏离教育本质。最后指出,在AGI时代,学习AI大模型不仅是为了适应技术浪潮,更是为了填补400万人才缺口,成为高薪“AI+”岗位的抢手人才。教育的目标已转变为培养驾驭AI的思考者,而不仅仅局限于竞争者角色。
298 1
|
机器学习/深度学习 人工智能 自然语言处理
AI写作新时代:自然语言生成技术与写作助手的结合
AI写作新时代:自然语言生成技术与写作助手的结合
597 16

热门文章

最新文章