AI驱动智能化日志分析 : 通过决策树给日志做聚类分析

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 日志自动化、智能化分析对于AI需求 通常,我们分析日志,是为了两个目标: 对数据有个整体的概览,例如,生成一天内的报表。 对异常数据进行挖掘,例如,对特殊的日志进行告警。 日志分析,通常对分析者有这些要求: 对业务数据的熟悉程度要求比较高。

日志自动化、智能化分析对于AI需求

通常,我们分析日志,是为了两个目标:

  • 对数据有个整体的概览,例如,生成一天内的报表。
  • 对异常数据进行挖掘,例如,对特殊的日志进行告警。

日志分析,通常对分析者有这些要求:

  1. 对业务数据的熟悉程度要求比较高。
  2. 要求开发者具备搭建分析系统的能力。
  3. 对分析算法足够的熟悉。

通常分析日志,可以借助于流计算系统来做实时计算、或者借助elasticsearch做搜索。日志服务,提供了一整套完整的日志收集、消费、搜索、计算的平台。云计算提供的平台解放了开发者,开发者不再需要把精力消耗在日志支撑系统的维护上,把自己的时间投入到自己的主营业务上,会获得最大的回报。

不仅如此,日志服务还提供了了一些智能化分析日志的手段。在日志服务控制台,左侧快速查询栏目,提供了对数字列的分类统计,可以看出数字列的分布,集中分布在哪些地方,有哪些特殊值。

image.png

只从Alpha GO战胜李世石之后,人们终于认识到,机器学习用来预测的准确率,已经达到了人类智能的水平。AI,也可以帮我们来完成一些传统日志分析系统无法完成的工作,例如数据分类、离群数据分析等。今天我们介绍日志服务的快速分析所使用的无监督机器学习:决策树算法,并且通过样例来演示如何使用决策树来挖掘异常数据。

决策树算法简介

机器学习的算法繁多,其中很多算法是一类算法,而有些算法又是从其他算法中衍生出来的,因此我们可以按照不同的角度将其分类。按照学习方式分类,包括监督式学习,无监督学习,半监督学习,强化学习。其中,决策树属于无监督学习。无监督学习,不需要人工标注数据集,依赖于算法本身来预测数据。

数值列的分类也可以使用决策树算法。下图描述如果迭代的把数据归类到对应的桶中。

image.png

对于每一轮迭代:

  1. 初始化是是N个桶。
  2. 新加入一个数据,变成N+1个桶,并把N+1个桶排序。
  3. 计算相邻两个桶之间的距离,并且选择距离最小的两个桶合并成一个桶,重新计算新桶的平均值。
  4. 重复步骤1。

上述是基本的算法过程。详细的算法描述见论文:
`Yael Ben-Haim and Elad Tom-Tov, "A streaming parallel decision tree algorithm",
J. Machine Learning Research 11 (2010), pp. 849--872.`

决策树算法分析日志案例

今天上述的数值分类算法已经在日志服务中提供了,参考文档numeric_histogram

查找异常值

首先看所有值的

* | select count(1) , latency group by  latency

image.png

从结果中看,latency=1的值明显偏离其他数值。我们使用numeric_histogram把latency列分成两类:

* | select numeric_histogram(2,latency)

获取结果中包含两个桶,显示每个桶的平均值。 一个桶的均值是1,个数为100个;另一个桶均值是11.23,个数为1300。可以看出,均值为1的桶明显偏离了整体的均值。

image.png

同样的,划分3个桶

* | select numeric_histogram(3,latency)

三个桶的均值分别是1,11,12.5:

image.png

整体概括日志

我们都知道,数值列的分布范围比较大,无法使用group by进行计算,但我们可以使用numeric_histogram函数,来对数值列进行group by。

从计算结果中可以看到,latency大部分分布于308.242k左右。

image.png

更多经常内容

SQL分析语法
5分钟搭建网站实时分析:Grafana+日志服务实战
从日志到双十一大屏只要一步:LOG/SLS+DataV 打通
自建ELK vs 日志服务(SLS)全方位对比

试用日志服务

查询链接
dashboard链接

以下5个子帐号供试用,请随机选择一个登录,若登录不成功请换一个子帐号尝试:

登录地址 用户名 密码
链接 sls_reader1@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader2@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader3@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader4@1654218965343050 pnX-32m-MHH-xbm
链接 sls_reader5@1654218965343050 pnX-32m-MHH-xbm

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
目录
相关文章
|
人工智能 自然语言处理 Devops
云效 AI 智能代码评审体验指南
云效AI智能代码评审正式上线!在合并请求时自动分析代码,精准识别问题,提升交付效率与质量。支持自定义规则、多语言评审,助力研发效能升级。立即体验AI驱动的代码评审革新,让AI成为你的代码质量伙伴!
582 7
|
5月前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
5月前
|
人工智能 自然语言处理 算法
【2025云栖大会】AI 搜索智能探索:揭秘如何让搜索“有大脑”
2025云栖大会上,阿里云高级技术专家徐光伟在云栖大会揭秘 Agentic Search 技术,涵盖低维向量模型、多模态检索、NL2SQL及DeepSearch/Research智能体系统。未来,“AI搜索已从‘信息匹配’迈向‘智能决策’,阿里云将持续通过技术创新与产品化能力,为企业构建下一代智能信息获取系统。”
625 9
|
5月前
|
机器学习/深度学习 人工智能 算法
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含2500张已标注实验室设备图片,涵盖空调、灭火器、显示器等10类常见设备,适用于YOLO等目标检测模型训练。数据多样、标注规范,支持智能巡检、设备管理与科研教学,助力AI赋能智慧实验室建设。
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
|
5月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
512 5
我们开源了一款 AI 驱动的用户社区
|
5月前
|
机器学习/深度学习 人工智能 算法
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
NBA中国与阿里云达成合作,首发360°实时回放技术,融合AI视觉引擎,实现多视角、低延时、沉浸式观赛新体验,重新定义体育赛事观看方式。
851 0
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
|
5月前
|
人工智能 编解码 搜索推荐
AI智能换背景,助力电商图片营销升级
电商产品图换背景是提升销量与品牌形象的关键。传统抠图耗时费力,AI技术则实现一键智能换背景,高效精准。本文详解燕雀光年AI全能设计、Canva、Remove.bg等十大AI工具,涵盖功能特点与选型建议,助力商家快速打造高质量、高吸引力的商品图,提升转化率与品牌价值。(238字)
519 0

相关产品

  • 日志服务