AI驱动智能化日志分析 : 通过决策树给日志做聚类分析

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 日志自动化、智能化分析对于AI需求 通常,我们分析日志,是为了两个目标: 对数据有个整体的概览,例如,生成一天内的报表。 对异常数据进行挖掘,例如,对特殊的日志进行告警。 日志分析,通常对分析者有这些要求: 对业务数据的熟悉程度要求比较高。

日志自动化、智能化分析对于AI需求

通常,我们分析日志,是为了两个目标:

  • 对数据有个整体的概览,例如,生成一天内的报表。
  • 对异常数据进行挖掘,例如,对特殊的日志进行告警。

日志分析,通常对分析者有这些要求:

  1. 对业务数据的熟悉程度要求比较高。
  2. 要求开发者具备搭建分析系统的能力。
  3. 对分析算法足够的熟悉。

通常分析日志,可以借助于流计算系统来做实时计算、或者借助elasticsearch做搜索。日志服务,提供了一整套完整的日志收集、消费、搜索、计算的平台。云计算提供的平台解放了开发者,开发者不再需要把精力消耗在日志支撑系统的维护上,把自己的时间投入到自己的主营业务上,会获得最大的回报。

不仅如此,日志服务还提供了了一些智能化分析日志的手段。在日志服务控制台,左侧快速查询栏目,提供了对数字列的分类统计,可以看出数字列的分布,集中分布在哪些地方,有哪些特殊值。

image.png

只从Alpha GO战胜李世石之后,人们终于认识到,机器学习用来预测的准确率,已经达到了人类智能的水平。AI,也可以帮我们来完成一些传统日志分析系统无法完成的工作,例如数据分类、离群数据分析等。今天我们介绍日志服务的快速分析所使用的无监督机器学习:决策树算法,并且通过样例来演示如何使用决策树来挖掘异常数据。

决策树算法简介

机器学习的算法繁多,其中很多算法是一类算法,而有些算法又是从其他算法中衍生出来的,因此我们可以按照不同的角度将其分类。按照学习方式分类,包括监督式学习,无监督学习,半监督学习,强化学习。其中,决策树属于无监督学习。无监督学习,不需要人工标注数据集,依赖于算法本身来预测数据。

数值列的分类也可以使用决策树算法。下图描述如果迭代的把数据归类到对应的桶中。

image.png

对于每一轮迭代:

  1. 初始化是是N个桶。
  2. 新加入一个数据,变成N+1个桶,并把N+1个桶排序。
  3. 计算相邻两个桶之间的距离,并且选择距离最小的两个桶合并成一个桶,重新计算新桶的平均值。
  4. 重复步骤1。

上述是基本的算法过程。详细的算法描述见论文:
`Yael Ben-Haim and Elad Tom-Tov, "A streaming parallel decision tree algorithm",
J. Machine Learning Research 11 (2010), pp. 849--872.`

决策树算法分析日志案例

今天上述的数值分类算法已经在日志服务中提供了,参考文档numeric_histogram

查找异常值

首先看所有值的

* | select count(1) , latency group by  latency

image.png

从结果中看,latency=1的值明显偏离其他数值。我们使用numeric_histogram把latency列分成两类:

* | select numeric_histogram(2,latency)

获取结果中包含两个桶,显示每个桶的平均值。 一个桶的均值是1,个数为100个;另一个桶均值是11.23,个数为1300。可以看出,均值为1的桶明显偏离了整体的均值。

image.png

同样的,划分3个桶

* | select numeric_histogram(3,latency)

三个桶的均值分别是1,11,12.5:

image.png

整体概括日志

我们都知道,数值列的分布范围比较大,无法使用group by进行计算,但我们可以使用numeric_histogram函数,来对数值列进行group by。

从计算结果中可以看到,latency大部分分布于308.242k左右。

image.png

更多经常内容

SQL分析语法
5分钟搭建网站实时分析:Grafana+日志服务实战
从日志到双十一大屏只要一步:LOG/SLS+DataV 打通
自建ELK vs 日志服务(SLS)全方位对比

试用日志服务

查询链接
dashboard链接

以下5个子帐号供试用,请随机选择一个登录,若登录不成功请换一个子帐号尝试:

登录地址 用户名 密码
链接 sls_reader1@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader2@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader3@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader4@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader5@1654218965343050 pnX-32m-MHH-xbm

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
目录
相关文章
|
8月前
|
人工智能 运维 监控
日志太多根本看不过来?教你用AI,让日志自己“说人话”!
日志太多根本看不过来?教你用AI,让日志自己“说人话”!
1747 0
|
11月前
|
监控 安全 BI
防火墙事件日志及日志分析
在网络安全防护体系中,防火墙作为抵御外部威胁的第一道防线,其重要性不言而喻。而对防火墙日志进行分析,更是深入了解网络流量、发现潜在安全风险的关键手段。
816 1
|
10月前
|
SQL 监控 关系型数据库
MySQL日志分析:binlog、redolog、undolog三大日志的深度探讨。
数据库管理其实和写小说一样,需要规划,需要修订,也需要有能力回滚。理解这些日志的作用与优化,就像把握写作工具的使用与运用,为我们的数据库保驾护航。
638 23
|
11月前
|
人工智能 自然语言处理 安全
Purple AI带来的新可能 对 第三方日志源以及多语言问题支持
随着网络威胁日益复杂,SentinelOne推出Purple AI,以生成式人工智能助力安全团队高效检测与防护。Purple AI简化威胁搜寻、调查流程,支持多语言提问及扩展第三方日志源(如Palo Alto Networks、ZScaler等),提升数据可见性与响应速度。其多语言功能打破语言障碍,促进全球协作,赋能每个组织在不断演变的威胁中保持领先,构建更安全的未来。
116 2
Purple AI带来的新可能 对 第三方日志源以及多语言问题支持
|
10月前
|
人工智能 运维 监控
兄弟,你还在翻日志看故障?AI都快替你写日报了!
兄弟,你还在翻日志看故障?AI都快替你写日报了!
771 7
|
9月前
|
数据采集 人工智能 运维
甭再盯死日志了,AI已经悄悄替你盯着网络流量了
甭再盯死日志了,AI已经悄悄替你盯着网络流量了
444 0
|
10月前
|
机器学习/深度学习 人工智能 运维
日志别只会“看”,现在是该让AI帮你“算”了!
日志别只会“看”,现在是该让AI帮你“算”了!
930 9
|
5月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1378 56
|
5月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
665 30

相关产品

  • 日志服务