SLS 智能运维 AI 基础模型创新

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: SLS 全新发布运维场景基础模型,覆盖 Log、Metric、Trace 等可观测数据场景,模型提供开箱即用的异常检测、自动标注、分类和根因分析等能力;根因分析算法千级异常请求秒级定位,生产中准确率达95%;同时支持人工辅助微调,提供人工标注、结果打标修正,模型根据人工反馈自动微调,提升场景准确率。

AIOps 为运维工作带来革命式变革

随着云计算技术不断升级,承载业务的 IT 基础设施规模扩大,各个应用之间的链路关系变得越来越复杂,每时每刻都在产生海量级的日志。对日志数据的采集、存储与分析处理方式,是衡量企业系统数字化程度的重要标志。传统的 IT 运维方案也会面临非常大的挑战对于 DevOps 来说,需要花费数小时进行查找、对比和分析,以解决一个问题。这可能涉及到查看各种日志、监控数据和其他相关信息,以找出问题的根源。而对于 SecOps 来说,需要在海量的数据中进行深度分析,意味着他们需要从数百 TB 的数据中,从异常中快速挖掘根本原因,这些过程都是非常耗时且繁琐的,可能需要大量的人力和资源投入。


传统的 AIOps 技术如异常检测、根因定位等主要有以下两个问题

  • AIOps 算法涉及到很多阈值、规则的配置,在不同业务场景这些配置项都需要反复测试选择。因此算法的维护成本比较高,很难随着业务场景的变化而演进
  • AIOps 模型的构建一般使用私域数据,往往存在数据数量较少、质量较差的问题。这导致了模型的泛化性、迁移能力较差,在不同的业务场景往往需要重新构建


针对以上痛点,SLS 推出智能运维通用模型能力。我们分别构建了用于对 Log、Trace、Metric 这三类可观测数据进行分析的基础模型,提供开箱即用的异常检测算法、根因分析和自动打标等能力。支持秒级在数千请求内定位到根因,在生产中准确率达 95%以上。对于不同的数据类型,我们选择了不同的任务对模型进行预训练:

  • Metric 基础模型:可准备识别时序异常检测、时序预测、形态检测等,辅助做好更加智能的巡检
  • Log 基础模型:针对日志场景,提供丰富的 LogNER 的能力,辅助抽取带有语义信息的日志模板
  • Trace 基础模型:支持 OT 协议的 Trace 数据的高延时诊断


特定领域的基础模型,开箱即用,省略了复杂的部署流程,一键触达,大大降低客户对日志服务基础能力的使用门槛。客户无需在特定的场景中进行模型微调,直接通过日志服务提供的通用基础模型就可以达到不错的效果。

SLS 发布智能运维场景的基础模型

近期 SLS 发布智能运维基础模型,覆盖 Log、Trace、Metric 等可观测数据场景,支持指标的异常检测、文本的分词标注、Trace请求的高延时分析。模型提供开箱即用的异常检测、自动标注、分类和根因分析等能力。支持秒级在数千请求内定位到根因,在生产中准确率达 95%以上


此外,SLS 提供人工辅助微调。在日志服务平台上,原生支持对 Log、Metric、Trace 的标注反馈能力,让客户在使用的过程中可以快速进行标注、结果打标修正,沉淀符合特定场景的数据集。通过平台的标注能力,让客户从零开始积累高质量的运维数据标签,为未来的根因诊断模型的训练提供了无限可能。


在未来,客户可以针对自己标注的数据在特定领域的模型上进行微调,并行快速部署,创建私有的模型服务。支持自动标注人工辅助微调,支持人工标注结果打标修正,模型根据人工反馈自动微调,提升场景准确率。

AI 基础模型 - Metric 模型的介绍

Metric 基础模型收集海量真实指标数据,尝试语言模型在指标数据上的迁移能力,具备开箱即用的指标异常检测能力。Metric 基础模型核心能力如下:

  • 针对 AIOps 领域数据多样:涉及了日志场景中的 20+ 类别的数据,涉及其中核心的 KPI 指标数量达到 15W+,指标实体数量达到 3W+,收集近 90 天的观测数据。
  • 附带元数据的特征编码:时序数据的划分需要动态的适配数据的形态,考虑时序数据中的时间戳特性
  • 下游任务拆解,包括 filling Blanks,fragment classfication,short term predication。

AI 基础模型-Metric 基础模型的演示

点击 智能运维基础模型 Demo 了解更多详情,作者:刘进步 阿里云高级开发工程师

https://developer.aliyun.com/live/253663?spm=a2c6h.27925324.detail.21.489031886qWWf7


AI 基础模型-Log 模型的介绍

Log 基础模型收集海量日志数据,提升语言模型在日志数据上的迁移能力,帮助运维人员更好的理解非结构化数据。其核心能力如下:

  • 针对 AIOps 领域数据多样:包含 200+ 的系统层和应用层日志,涵盖 100W+ 的日志
  • 运维场景的日志理解: 定义了日志领域场景的 16 类实体,自动提示实体信息

AI 基础模型-Log 基础模型的演示

点击 智能运维基础模型 Demo 了解更多详情,作者:刘进步 阿里云高级开发工程师

https://developer.aliyun.com/live/253664?spm=a2c6h.24874632.expert-profile.30.6e1c667bZuoq2F


AI 基础模型- Trace 基础模型的介绍

Trace 基础模型开箱即用,仅需要小部分 Meta 数据,无需进行大规模的预训练,能较好的适配多种微服务系统。

其核心能力如下:

  • 学习大量的微服务系统:使用阿里云内部微服务系统的真实数据,开发整套微服务系统生成的系统,通过混沌工程进行故障输入,获取真实的标签数据
  • 将图和指标联合建模:探索使用多源异构数据进行联合建模,解决图模型的泛化问题设计无监督任务,利用反事实方法生成标签

AI 基础模型-Trace 基础模型的演示

点击 智能运维基础模型 Demo 了解更多详情,作者:刘进步 阿里云高级开发工程师

https://developer.aliyun.com/live/253662?spm=a2c6h.27925324.detail.29.48903188vi5tKx


Trace RCA 场景示例:智能异常分析检测与根因分析

以游戏用户为例,介绍智能异常分析检测与根因分析的场景。游戏用户在游戏服务系统中调用和依赖关系复杂、任何阶段出问题都可能导致游戏操作失败或卡顿,影响玩家用户体验。


针对此类问题,我们提出了一种解决方案。该方案利用服务中的 Trace 数据自动生成拓扑图,并围绕高延时分析、高错误率分析、系统热点和瓶颈等方面进行分析和诊断,以缩短问题处理时间并优化系统延时。


通过自动生成的拓扑图,我们可以快速定位海量 Trace 数据中的异常根因和性能瓶颈,无需人工干预。这种方法可以提高大规模分布式系统的异常定位效率,并实现数千请求每秒级别的根因定位。在生产环境中,该方案的准确率可达到 95%。


Trace 根因分析主要围绕三个场景:

  1. 错误&高延时 Trace 根因分析:探测导致 Trace 高延时或错误的服务,关联 Log/Trace/Metric,自动检测根因
  2. 服务性能瓶颈检测:预测微服务系统的性能瓶颈
  3. Trace 聚类:将 Trace 聚合,找到 Trace 的 Pattern,快速找到相同错误类型的报错


以下截图显示 Trace RCA 自定义仪表盘:


SLS Mall 共有 12 个服务,45 个入口接口,在选择的时间段中,共产生了 1641195条Trace,其中请求平均延迟 21288.11ms

15:23 共有 1 个入口服务产生 2880 条慢 Trace 其中入口服务 Front-end 的 POST/jordrg 发现次数最多共出现 2880 次占100.0%

在根因分析结果中,主机 pay-ment-5b7dBd684b-zjtzv 出现比例最高,其中共出现 2892 次占 34.0%

在根因分析结果中,服务 payment 出现比例最高,其中共出现 2892 次占 99.0%

在根因分析结果中,方法 POST/payment-tAuth 出现比例最高,其中共出现 2892 次占 99.0%

未来方向探讨 

阿里云日志服务 SLS 致力于打造高效、可观测的运维解决方案,凭借其多年的运维经验以及大语言模型的支持,不断提升其在此领域的竞争力。在未来,SLS 智能运维基础模型的能力会持续优化。


SFT 与反馈相结合的 AI 系统是一种强大的机制,可以帮助提升模型的效果。在获得用户授权后,通过持续收集和分析用户反馈数据来不断优化基础 AI 模型,并为用户提供定制化服务,允许他们使用自己的业务数据和标签对模型进行微调,从而创建出更贴合其特定需求的专属模型。


通过 AI Agents 进一步实现运维场景的效率优化。需要深入探索和挖掘在智能运维领域中,适合利用 AI Agents 自动化、智能化提效的场景。探索 AI Agent 在多场景中的统一表示。探索基于 AI Agents 进行自主编程和自主执行的框架设计。

相关实践学习
日志服务之数据清洗与入湖
本教程介绍如何使用日志服务接入NGINX模拟数据,通过数据加工对数据进行清洗并归档至OSS中进行存储。
目录
相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
智能引领未来:精准选择与高效利用AI技术的实战指南
【7月更文第14天】在当今科技飞速发展的时代,人工智能(AI)已不再局限于科幻电影的想象,而是成为了推动各行各业革新升级的核心驱动力。从自动驾驶汽车到个性化推荐系统,从医疗诊断辅助到智能制造,AI正深刻改变着我们的生活和工作方式。然而,面对琳琅满目的AI技术和工具,如何精准选择并高效利用AI,成为企业和开发者亟需解决的关键问题。本文将为您揭示这一过程中的核心策略与实践技巧,并通过一个简单的代码示例,让您直观感受AI技术的魅力。
23 3
|
3天前
|
机器学习/深度学习 传感器 运维
智能化运维:利用机器学习优化IT基础设施管理
【7月更文挑战第12天】随着信息技术的飞速发展,企业IT基础设施变得日益复杂。传统的运维方式已无法满足现代业务的需求,智能化运维应运而生。本文将探讨如何通过机器学习技术,实现对IT基础设施的智能监控、故障预测和自动化处理,以期提高运维效率,降低运营成本,并保障系统的稳定性和可靠性。
|
1天前
|
机器学习/深度学习 数据采集 人工智能
动手实践:从零开始训练AI模型的全面指南
【7月更文第14天】随着人工智能技术的飞速发展,训练AI模型已成为科研、工程乃至创业领域的热门技能。本文旨在为初学者提供一个清晰、实用的指南,带领大家从零开始,了解并实践如何训练一个人工智能模型。我们将以一个简单的线性回归任务为例,逐步深入,探讨数据预处理、模型构建、训练过程及评估方法,最后展示如何使用Python和深度学习库PyTorch实现这一过程。
20 0
|
3天前
|
机器学习/深度学习 运维 安全
智能化运维:利用机器学习技术优化IT基础设施管理
在信息技术迅猛发展的今天,传统的运维管理模式已难以应对日益复杂的IT基础设施。本文探讨了如何通过集成机器学习技术到运维流程中,实现智能化的运维管理。文章首先介绍了智能化运维的概念及其必要性,随后详细阐述了机器学习在故障预测、自动化处理和安全防护等方面的应用,并通过具体案例展示了智能化运维的实际效果。最后,讨论了实施智能化运维时可能遇到的挑战及未来发展趋势。
36 2
|
3天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在系统管理中的应用与挑战
本文将深入探讨人工智能(AI)技术在运维领域的应用,分析其带来的效率提升和成本节约,同时指出实施过程中可能遇到的技术和管理挑战。文章还将提供针对这些挑战的应对策略,以期为运维专业人士提供指导和参考。
|
3天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在系统维护中的角色与影响
随着技术的不断进步,机器学习已成为推动智能运维发展的关键力量。通过分析历史数据、模式识别和预测性维护,机器学习不仅优化了传统运维流程,还极大地提高了效率和准确性。本文将探讨机器学习在智能运维中的应用,包括故障预测、自动化响应和资源优化等方面,旨在为读者提供深入的理解和可行的应用建议。
|
3天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在系统监控中的应用
随着信息技术的飞速发展,传统的运维管理方法已难以应对日益增长的系统复杂性。本文将探讨如何利用机器学习技术优化运维流程,实现智能化系统监控,提升效率与准确性。通过分析机器学习在预测性维护、异常检测和自动化响应等方面的应用案例,揭示数据驱动的运维新模式对提升系统稳定性和性能的重要性。
|
5天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与机器学习在IT管理中的应用
【7月更文挑战第10天】本文深入探讨了人工智能和机器学习如何革新传统的IT运维领域。文章首先界定了智能化运维的概念,随后分析了AI技术在故障预测、自动化处理和安全监控方面的应用实例,并讨论了实施智能化运维时面临的挑战及其克服策略。最终,文章展望了智能化运维的未来趋势,强调了持续学习和适应新技术的重要性。
|
5天前
|
人工智能 运维 自然语言处理
当Linux遇上AI:探索操作系统中的智能新纪元
阿里云的OS Copilot是专为Linux打造的智能助手,利用大模型提供自然语言交互、命令辅助及运维优化。它简化编程任务,生成脚本框架,提供代码审查建议,适合开发者和运维人员。
44 0
当Linux遇上AI:探索操作系统中的智能新纪元
|
2天前
|
机器学习/深度学习 运维 监控
智能化运维:机器学习在故障预测和自动化修复中的应用
随着信息技术的迅猛发展,企业对运维工作的效率和准确性要求越来越高。传统的运维模式已难以应对日益复杂的系统环境和数据量。本文将探讨如何利用机器学习技术提升运维工作的智能化水平,实现故障的早期预测和自动化修复,从而减少系统停机时间,提高企业运营效率。通过分析机器学习在运维领域的应用实例,揭示其在实际工作中的有效性和潜力。
14 0

相关产品

  • 日志服务