AI驱动智能化日志分析 : 通过决策树给日志做聚类分析

本文涉及的产品
对象存储 OSS,20GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
文件存储 NAS,50GB 3个月
简介: 日志自动化、智能化分析对于AI需求 通常,我们分析日志,是为了两个目标: 对数据有个整体的概览,例如,生成一天内的报表。 对异常数据进行挖掘,例如,对特殊的日志进行告警。 日志分析,通常对分析者有这些要求: 对业务数据的熟悉程度要求比较高。

日志自动化、智能化分析对于AI需求

通常,我们分析日志,是为了两个目标:

  • 对数据有个整体的概览,例如,生成一天内的报表。
  • 对异常数据进行挖掘,例如,对特殊的日志进行告警。

日志分析,通常对分析者有这些要求:

  1. 对业务数据的熟悉程度要求比较高。
  2. 要求开发者具备搭建分析系统的能力。
  3. 对分析算法足够的熟悉。

通常分析日志,可以借助于流计算系统来做实时计算、或者借助elasticsearch做搜索。日志服务,提供了一整套完整的日志收集、消费、搜索、计算的平台。云计算提供的平台解放了开发者,开发者不再需要把精力消耗在日志支撑系统的维护上,把自己的时间投入到自己的主营业务上,会获得最大的回报。

不仅如此,日志服务还提供了了一些智能化分析日志的手段。在日志服务控制台,左侧快速查询栏目,提供了对数字列的分类统计,可以看出数字列的分布,集中分布在哪些地方,有哪些特殊值。

image.png

只从Alpha GO战胜李世石之后,人们终于认识到,机器学习用来预测的准确率,已经达到了人类智能的水平。AI,也可以帮我们来完成一些传统日志分析系统无法完成的工作,例如数据分类、离群数据分析等。今天我们介绍日志服务的快速分析所使用的无监督机器学习:决策树算法,并且通过样例来演示如何使用决策树来挖掘异常数据。

决策树算法简介

机器学习的算法繁多,其中很多算法是一类算法,而有些算法又是从其他算法中衍生出来的,因此我们可以按照不同的角度将其分类。按照学习方式分类,包括监督式学习,无监督学习,半监督学习,强化学习。其中,决策树属于无监督学习。无监督学习,不需要人工标注数据集,依赖于算法本身来预测数据。

数值列的分类也可以使用决策树算法。下图描述如果迭代的把数据归类到对应的桶中。

image.png

对于每一轮迭代:

  1. 初始化是是N个桶。
  2. 新加入一个数据,变成N+1个桶,并把N+1个桶排序。
  3. 计算相邻两个桶之间的距离,并且选择距离最小的两个桶合并成一个桶,重新计算新桶的平均值。
  4. 重复步骤1。

上述是基本的算法过程。详细的算法描述见论文:
`Yael Ben-Haim and Elad Tom-Tov, "A streaming parallel decision tree algorithm",
J. Machine Learning Research 11 (2010), pp. 849--872.`

决策树算法分析日志案例

今天上述的数值分类算法已经在日志服务中提供了,参考文档numeric_histogram

查找异常值

首先看所有值的

* | select count(1) , latency group by  latency

image.png

从结果中看,latency=1的值明显偏离其他数值。我们使用numeric_histogram把latency列分成两类:

* | select numeric_histogram(2,latency)

获取结果中包含两个桶,显示每个桶的平均值。 一个桶的均值是1,个数为100个;另一个桶均值是11.23,个数为1300。可以看出,均值为1的桶明显偏离了整体的均值。

image.png

同样的,划分3个桶

* | select numeric_histogram(3,latency)

三个桶的均值分别是1,11,12.5:

image.png

整体概括日志

我们都知道,数值列的分布范围比较大,无法使用group by进行计算,但我们可以使用numeric_histogram函数,来对数值列进行group by。

从计算结果中可以看到,latency大部分分布于308.242k左右。

image.png

更多经常内容

SQL分析语法
5分钟搭建网站实时分析:Grafana+日志服务实战
从日志到双十一大屏只要一步:LOG/SLS+DataV 打通
自建ELK vs 日志服务(SLS)全方位对比

试用日志服务

查询链接
dashboard链接

以下5个子帐号供试用,请随机选择一个登录,若登录不成功请换一个子帐号尝试:

登录地址 用户名 密码
链接 sls_reader1@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader2@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader3@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader4@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader5@1654218965343050 pnX-32m-MHH-xbm

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
4天前
|
机器学习/深度学习 存储 人工智能
智能化运维:AI在IT管理中的应用与挑战
【7月更文挑战第22天】在数字化转型的浪潮中,智能化运维成为企业追求效率和创新的关键。本文将深入探讨人工智能(AI)技术如何在IT运维领域发挥作用,包括自动化故障检测、预测性维护、以及智能决策支持等。同时,文章也将揭示AI运维面临的挑战,如数据隐私保护、模型可解释性和高成本投入等问题,并提出相应的解决策略。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
AICG驱动的叙事革命:AI在电影剧本创作中的角色
【7月更文第25天】随着人工智能技术的发展,尤其是自然语言处理(NLP)的进步,AI已经开始涉足创意写作领域。在电影行业中,AI不仅能够帮助创作概念和大纲,甚至还能生成完整的剧本草稿。本文将探讨AI如何改变电影剧本创作,并通过一个简单的Python示例展示如何利用AI模型生成剧本片段。
26 3
|
5天前
|
人工智能 自然语言处理 数据管理
自然语言处理技术在AI驱动的数据库中的作用是什么
自然语言处理技术在AI驱动的数据库中的作用是什么
|
6天前
|
人工智能 自然语言处理 搜索推荐
探索AI驱动的未来:Open API如何赋能企业数字化转型
【7月更文第21天】在当今这个数据为王、智能引领的时代,人工智能(AI)已不再是遥远的概念,而是深深融入到各行各业,成为推动企业数字化转型的重要引擎。随着技术的不断成熟与开放,Open API(开放应用程序接口)作为一种连接技术与业务的桥梁,正以前所未有的方式赋能企业,加速其智能化进程。本文将深入探讨Open API如何通过简化集成、促进创新、提升效率等途径,助力企业在AI时代中乘风破浪,实现数字化转型的华丽蜕变。
26 1
|
8天前
|
机器学习/深度学习 人工智能 供应链
智能制造:AI驱动的生产革命——探索生产线优化、质量控制与供应链管理的新纪元
【7月更文第19天】随着第四次工业革命的浪潮席卷全球,人工智能(AI)正逐步成为推动制造业转型升级的核心力量。从生产线的智能化改造到质量控制的精密化管理,再到供应链的全局优化,AI技术以其强大的数据处理能力和深度学习算法,为企业开启了全新的生产效率和质量标准。本文将深入探讨AI在智能制造中的三大关键领域——生产线优化、质量控制、供应链管理中的应用与影响,并通过具体案例和代码示例加以阐述。
48 3
|
12天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在IT管理中的创新应用
【7月更文挑战第15天】本文探讨了人工智能(AI)如何革新传统的IT运维模式,通过智能自动化、实时分析和预测性维护,显著提高运维效率和准确性。文章将深入分析AI技术在故障检测与解决、资源优化配置以及安全监控等方面的具体应用案例,并讨论实施AI时可能遇到的挑战和解决方案。
54 2
|
15天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在系统管理中的应用与挑战
本文将深入探讨人工智能(AI)技术在运维领域的应用,分析其带来的效率提升和成本节约,同时指出实施过程中可能遇到的技术和管理挑战。文章还将提供针对这些挑战的应对策略,以期为运维专业人士提供指导和参考。
|
2天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT管理中的革命性影响
【7月更文挑战第24天】本文深入探讨了人工智能(AI)在现代IT运维领域中的应用及其对行业实践的颠覆性影响。通过分析AI技术如何优化故障检测、自动化任务处理和预测性维护,我们揭示了智能化运维如何提升效率、降低成本并增强系统稳定性。文章进一步讨论了实现智能化运维的挑战与机遇,以及未来发展趋势。
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
数据的资产怎么被AI驱动的数据库理解
数据的资产怎么被AI驱动的数据库理解
|
11天前
|
人工智能 供应链
瓴羊入选2024中国决策式AI企业商业落地Top 20
瓴羊入选2024中国决策式AI企业商业落地Top 20

相关产品

  • 日志服务