AI驱动智能化日志分析 : 通过决策树给日志做聚类分析

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 日志自动化、智能化分析对于AI需求 通常,我们分析日志,是为了两个目标: 对数据有个整体的概览,例如,生成一天内的报表。 对异常数据进行挖掘,例如,对特殊的日志进行告警。 日志分析,通常对分析者有这些要求: 对业务数据的熟悉程度要求比较高。

日志自动化、智能化分析对于AI需求

通常,我们分析日志,是为了两个目标:

  • 对数据有个整体的概览,例如,生成一天内的报表。
  • 对异常数据进行挖掘,例如,对特殊的日志进行告警。

日志分析,通常对分析者有这些要求:

  1. 对业务数据的熟悉程度要求比较高。
  2. 要求开发者具备搭建分析系统的能力。
  3. 对分析算法足够的熟悉。

通常分析日志,可以借助于流计算系统来做实时计算、或者借助elasticsearch做搜索。日志服务,提供了一整套完整的日志收集、消费、搜索、计算的平台。云计算提供的平台解放了开发者,开发者不再需要把精力消耗在日志支撑系统的维护上,把自己的时间投入到自己的主营业务上,会获得最大的回报。

不仅如此,日志服务还提供了了一些智能化分析日志的手段。在日志服务控制台,左侧快速查询栏目,提供了对数字列的分类统计,可以看出数字列的分布,集中分布在哪些地方,有哪些特殊值。

image.png

只从Alpha GO战胜李世石之后,人们终于认识到,机器学习用来预测的准确率,已经达到了人类智能的水平。AI,也可以帮我们来完成一些传统日志分析系统无法完成的工作,例如数据分类、离群数据分析等。今天我们介绍日志服务的快速分析所使用的无监督机器学习:决策树算法,并且通过样例来演示如何使用决策树来挖掘异常数据。

决策树算法简介

机器学习的算法繁多,其中很多算法是一类算法,而有些算法又是从其他算法中衍生出来的,因此我们可以按照不同的角度将其分类。按照学习方式分类,包括监督式学习,无监督学习,半监督学习,强化学习。其中,决策树属于无监督学习。无监督学习,不需要人工标注数据集,依赖于算法本身来预测数据。

数值列的分类也可以使用决策树算法。下图描述如果迭代的把数据归类到对应的桶中。

image.png

对于每一轮迭代:

  1. 初始化是是N个桶。
  2. 新加入一个数据,变成N+1个桶,并把N+1个桶排序。
  3. 计算相邻两个桶之间的距离,并且选择距离最小的两个桶合并成一个桶,重新计算新桶的平均值。
  4. 重复步骤1。

上述是基本的算法过程。详细的算法描述见论文:
`Yael Ben-Haim and Elad Tom-Tov, "A streaming parallel decision tree algorithm",
J. Machine Learning Research 11 (2010), pp. 849--872.`

决策树算法分析日志案例

今天上述的数值分类算法已经在日志服务中提供了,参考文档numeric_histogram

查找异常值

首先看所有值的

* | select count(1) , latency group by  latency

image.png

从结果中看,latency=1的值明显偏离其他数值。我们使用numeric_histogram把latency列分成两类:

* | select numeric_histogram(2,latency)

获取结果中包含两个桶,显示每个桶的平均值。 一个桶的均值是1,个数为100个;另一个桶均值是11.23,个数为1300。可以看出,均值为1的桶明显偏离了整体的均值。

image.png

同样的,划分3个桶

* | select numeric_histogram(3,latency)

三个桶的均值分别是1,11,12.5:

image.png

整体概括日志

我们都知道,数值列的分布范围比较大,无法使用group by进行计算,但我们可以使用numeric_histogram函数,来对数值列进行group by。

从计算结果中可以看到,latency大部分分布于308.242k左右。

image.png

更多经常内容

SQL分析语法
5分钟搭建网站实时分析:Grafana+日志服务实战
从日志到双十一大屏只要一步:LOG/SLS+DataV 打通
自建ELK vs 日志服务(SLS)全方位对比

试用日志服务

查询链接
dashboard链接

以下5个子帐号供试用,请随机选择一个登录,若登录不成功请换一个子帐号尝试:

登录地址 用户名 密码
链接 sls_reader1@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader2@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader3@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader4@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader5@1654218965343050 pnX-32m-MHH-xbm

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
3天前
|
人工智能 自动驾驶 算法
智能时代的伦理困境:AI决策的道德边界
在人工智能技术飞速发展的今天,我们面临着前所未有的伦理挑战。本文探讨了AI决策中的道德边界问题,分析了技术发展与人类价值观之间的冲突,并提出了建立AI伦理框架的必要性和可能路径。通过深入剖析具体案例,揭示了AI技术在医疗、司法等领域的应用中所引发的道德争议,强调了在追求技术进步的同时,必须审慎考虑其对社会伦理的影响,确保科技发展服务于人类的福祉而非成为新的困扰源。
|
2天前
|
人工智能 自然语言处理 机器人
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
10 月 18 日, InfoQ《C 位面对面》栏目邀请到阿里云 CIO 及 aliyun.com 负责人蒋林泉(花名:雁杨),就 AI 时代企业 CIO 的角色转变、企业智能化转型路径、AI 落地实践与人才培养等主题展开了讨论。
146 19
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
|
1天前
|
人工智能
1024 云上见 AI大模型助力客户对话分析 2000个智能台灯等你来领
1024 云上见 AI大模型助力客户对话分析 2000个智能台灯等你来领
13 3
|
3天前
|
人工智能 运维 监控
智能化运维:AI在IT运维中的挑战与机遇###
本文探讨了人工智能(AI)技术在IT运维领域的应用,重点分析了AI如何提升运维效率、减少故障恢复时间,并预测未来发展趋势。通过具体案例展示了AI在实际运维中的应用效果,同时指出当前面临的挑战和解决方案,为读者提供一个全面了解智能化运维的视角。 ###
|
4天前
|
人工智能 弹性计算
|
2天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用探索###
随着信息技术的飞速发展,传统的IT运维模式正面临着前所未有的挑战。本文旨在探讨人工智能(AI)技术如何赋能IT运维,通过智能化手段提升运维效率、降低故障率,并为企业带来更加稳定高效的服务体验。我们将从AI运维的概念入手,深入分析其在故障预测、异常检测、自动化处理等方面的应用实践,以及面临的挑战与未来发展趋势。 ###
|
2天前
|
机器学习/深度学习 人工智能 安全
智能时代的隐私守护者:AI加密技术的崛起与挑战###
本文深入探讨了人工智能(AI)在数据加密领域的创新应用,分析了AI如何增强数据安全性,同时也指出了面临的挑战和未来发展趋势。通过具体案例分析,展现了AI加密技术在保护个人隐私与促进数据安全方面的潜力,为读者提供对未来智能时代隐私保护的深刻洞见。 ###
|
人工智能 数据挖掘 新制造
工业制造业的智能化机遇 ——从业务需求出发,寻找AI的机会点
本次由北京桑兰特资深咨询师韩俊仙老师带来了“工业制造业的智能化机遇——从业务需求出发,寻找AI的机会点”的分享,说明了新一轮工业革命的核心驱动力智能制造的重要性,从质量和可靠性的角度分析了提高产品质量可靠性的必要性,并对智能化在制造业的扩展空间进行了解读。
1664 0
|
6天前
|
人工智能 Serverless
AI助理精准匹配------助力快速搭建Stable Difussion图像生成应用
【10月更文挑战第7天】过去在阿里云社区搭建Stable Diffusion图像生成应用需查阅在线实验室或官方文档,耗时且不便。现阿里云AI助理提供精准匹配服务,直接在首页询问AI助理即可获取详细部署步骤,简化了操作流程,提高了效率。用户可按AI助理提供的步骤快速完成应用创建、参数设置、应用部署及资源释放等操作,轻松体验Stable Diffusion图像生成功能。
|
7天前
|
传感器 机器学习/深度学习 人工智能
AI在智能制造中的革新应用与未来展望
【10月更文挑战第10天】AI在智能制造中的革新应用与未来展望

相关产品

  • 日志服务