带你读《Elastic Stack 实战手册》之60:——3.5.16.4.Data frame analytics(1)

简介: 带你读《Elastic Stack 实战手册》之60:——3.5.16.4.Data frame analytics(1)

3.5.16.4.Data frame analytics


创作人:刘晓国

编辑:胡征南

 

数据集分析需要二维结构化数据,可以通过 Elasticsearch 的 3.5.13章节的 Transforms 功能,将数据转化为用于分析的数据集。

 

数据集分析可以可以对数据执行多种不同的分析任务,注释对应的结果。查阅3.5.16章节的

Setup and securuty 可以了解分析需要的许可证和安全权限。


总览

 

数据集分析可以可以对数据执行多种不同的分析任务,并注释对应的结果。通过数据集分析可以深入洞察数据;异常值检测可以识别出数据集中不寻常的点;回归分析可以预测数据的发展趋势;聚类分析可以预测给定数据集的分类;模型推断可以使用训练好的机器学习模型进行连续分析。

 

数据集分析会通过创建数据副本的方式保障源数据的完整性。可以对数据集进行分片和切块而不影响到原有数据。

 

可以通过已经标注好的数据集和分析 API 来评估性能和结果,也可以通过已标注数据理解错误分布和识别异常值。

 

机器学习的种类:


image.png


从上面的图中,我们可以看出来机器学习分为两种:

 

l Unsupervised:无监督的学习

l Supervised: 监督学习

 

Anomaly Detection 和 Outlier Detection 是数据驱动的,不需要用户指出正常还是异常,这称为无监督机器学习。无监督机器学习是使用户熟悉ML的重要第一步

 

但是,有一类用例需要通过使用带有标签数据的模型来训练,因此需要一些用户参与,以便你可以使用它对未标签数据进行预测,这就是所谓的 “监督学习”。借助监督学习,你可以训练机器学习模型以基于标记数据学习模式。


image.png

 我们可以在监督学习模式下,利用现有的已经被证实的例子作为范例进行学习,从而建立一个 ML Supervised 模型。我们也可以利用这个模型对未来的数据进行推断:

image.png


相关概念

 

本章节主要是解释 Elastic 机器学习中数据集分析及效果评估 API 的相关基础概念。

 

l 异常值检测

l 检测和分析异常值,常用于错误和异常分析

 

l 回归分析

l 一种机器学习分析方法,分析数据字段之间的关系,并对这些关系做进一步的预测

 

l 聚类分析

l 一种机器学习分析方法,对数据集数据进行分类。如:预测贷款风险分类、音乐分类、根据 DNA 序列检测潜在癌细胞等

 

l 模型推断

l 模型推断是一种对机器学习持续改进的功能,用于天气预测等

 

l 数据集评估

l 使用数据集评估 API 评估数据集表现,理解错误分布和异常值

 

l 特征编码

l 机器学习模型只能处理数字类型,此功能用于将特征值转换为数字类型


l 特征处理器

l 用于处理特征数据,包括频率编码、多值编码、n-gram 编码,独热编码、Target mean 编码

 

l 特征重要性

l 用于判断回归分析和聚类分析中的特征重要性

 

l 超参数优化

l 可以通过 API 获取模型超参数,并进行对应优化

 

l 模型管理

l 模型上传下载、应用于新的数据集


API 

数据集分析API主要包括分析API、评估API及模型管理 API

 

l 分析 API 基础地址:/_ml/data_frame/analytics

l 评估 API 基础地址:/_ml/data_frame/_evaluate

l 模型管理基础地址:/_ml/trained_models/

 

案例集

 

Outlier Detection

 

Outlier Detection,也称作为异常值检测。它是属于 Unsupervised 机器学习的一个部分。它是用于发现以 entity 为基础的数据集中的异常。在Transforms章节中,我们已经了解了如何把一个时序的数据集转为以 entity 为基础的数据集。如果你的原始数据集本身就是一个以

entity 为基础的数据集,我们就不需要做任何的转换了。我们就可以直接对数据进行 Outlier Dection。 


在进行 Outlier Detection 展示之前,我们先来简单地了解一下 Outlier Detection 是如何工作的。 我们先拿一个南瓜作为例子来进行描述。我们知道一个南瓜含有重量(weight)及周长(circumference)。

 

image.png


假如我们我们有如下的一个统计图:


image.png


如图所示,在通常的情况下周长越长,那么南瓜的重量就越大。按照这个说法,我们很容易解释左下角及右上角的一些数据。我们用肉眼很容易发现 A 及 B 是两个异类。Elastic 里的机器学习 Outlier Detection 其实按原理就是基于这种理解来进行计算的,只不过它使用了算术的方法来进行计算的。

 

在 Elastic Stack 的 Outlier Detection 中,它由四种互补的技术来实现的:

 image.png


回顾之前的例子,A 及 B 被视为异常是因为它们远离大多数正常南瓜所在的区域。这让我们创建一个公式来计算任何一个数据和其它数据之间的距离。当这些数据的距离相比较其它的要大很多,那么就可以视为异常。我们可以通过计算一个数据到它的 kth-nearest 附近数据的距离及平均距离来算出异常值。这个值将计入总的异常分数。尽管这种方法在大多数情况下非常有效,但是针对一些数据比较分散的数据集来说,所有的数据和其它的数据的距离都几乎相当,或者说都很远。我们在这种情况下需要测量这个点周围的数据密度来确定这个点是否异常。


image.png

如上所示,我们使用了另外的两个技术来测量一个点和周围的点的密度。通过这个技术我们能了解任何一个点的周围的点到底离它有多近,从而测出这个点的密度。通过这两个技术,我们可以得出另外一个分数。通过上面四种互补技术的运用,我们可以得出一个介于 0 到 1 的分数。这个分数越接近于 1,那么代表该数据越异常。

 



《Elastic Stack 实战手册》——三、产品能力——3.5 进阶篇——3.5.16. Machine learning——3.5.16.4.Data frame analytics(2) https://developer.aliyun.com/article/1227192


相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
存储 Java 编译器
深入理解 Java 泛型和类型擦除
【4月更文挑战第19天】Java泛型是参数化类型,增强安全性与可读性,但存在类型擦除机制。类型擦除保证与旧版本兼容,优化性能,但也导致运行时无法访问泛型信息、类型匹配问题及数组创建限制。为应对这些问题,可使用Object类、instanceof运算符,或借助Guava库的TypeToken获取运行时类型信息。
343 0
|
3月前
|
人工智能 自然语言处理 安全
Claude Code 插件登陆 VS Code:开发者迎来 AI 编程新利器
Anthropic正式发布Claude Code——VS Code官方插件,支持多语言智能补全、代码解释、错误诊断与安全重构。隐私优先、长上下文(200K tokens)处理能力强,显著优于Copilot的可解释性与代码质量,已获开发者广泛好评。(239字)
7118 5
|
3月前
|
IDE 安全 开发工具
告别频繁切换分支!用 Git Worktrees + Claude Code 构建高效并行开发流
本文介绍 Git Worktrees 与 Claude Code 的高效组合:用 Worktrees 创建多分支独立工作区,零拷贝、秒级切换;Claude 则在隔离环境中安全试错、并行开发。告别 stash 焦虑,实现真正并行开发流。(239字)
2698 1
|
测试技术
Squaretest自动生成单元测试
Squaretest自动生成单元测试
853 8
Squaretest自动生成单元测试
|
机器学习/深度学习 物联网 异构计算
ExVideo+CogVideoX,更长、更优!再次升级的开源视频生成能力
DiffSynth-Studio 再次为 CogVideoX 带来新的增强模块——ExVideo-CogVideoX-LoRA-129f-v1
|
域名解析 安全 应用服务中间件
域名、证书提升自建dnslog平台的安全性
本文介绍如何使用 Nginx 反向代理为自建的 DNSlog 平台添加域名访问及 SSL 证书,提升安全性。内容分为三部分:Nginx 反代配置、Cloudflare 域名解析配置及证书安装。通过详细步骤和命令,帮助读者顺利完成配置,实现安全稳定的域名访问。
490 82
域名、证书提升自建dnslog平台的安全性
|
人工智能 前端开发 关系型数据库
过年啦,做一个春节贺卡生成器
本文介绍了如何获取和利用现有的大模型资源,结合魔笔低代码,低成本、高效率地打造一个 AI 春节贺卡生成器。
613 38
|
存储 监控 安全
网络安全视角:从地域到账号的阿里云日志审计实践
日志审计的必要性在于其能够帮助企业和组织落实法律要求,打破信息孤岛和应对安全威胁。选择 SLS 下日志审计应用,一方面是选择国家网络安全专用认证的日志分析产品,另一方面可以快速帮助大型公司统一管理多组地域、多个账号的日志数据。除了在日志服务中存储、查看和分析日志外,还可通过报表分析和告警配置,主动发现潜在的安全威胁,增强云上资产安全。
994 43
|
机器学习/深度学习 人工智能 自然语言处理
AI写作新时代:自然语言生成技术与写作助手的结合
AI写作新时代:自然语言生成技术与写作助手的结合
561 16
|
传感器 机器学习/深度学习 人工智能
智能电网巡检与传感器数据AI自动分析
智能电网设备巡检与传感器数据分析利用AI技术实现自动化分析和预警。通过信息抽取、OCR技术和机器学习,系统可高效处理巡检报告和实时数据,生成精准报告并提供故障预判和早期识别。AI系统24小时监控设备状态,实时发出异常警报,确保设备正常运行,提升运维效率和可靠性。
787 6

热门文章

最新文章

下一篇
开通oss服务