AI Powered SLS 智能分析能力创新

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 随着云计算技术不断升级,承载业务的 IT 基础设施规模扩大,各个应用之间的链路关系变得越来越复杂,每时每刻都在产生海量级的日志。

AIOps 为运维工作带来革命式变革


随着云计算技术不断升级,承载业务的 IT 基础设施规模扩大,各个应用之间的链路关系变得越来越复杂,每时每刻都在产生海量级的日志。对日志数据的采集、存储与分析处理方式,是衡量企业系统数字化程度的重要标志。传统的 IT 运维方案也会面临非常大的挑战对于 DevOps 来说,需要花费数小时进行查找、对比和分析,以解决一个问题。这可能涉及到查看各种日志、监控数据和其他相关信息,以找出问题的根源。而对于 SecOps 来说,需要在海量的数据中进行深度分析,意味着他们需要从数百 TB 的数据中,从异常中快速挖掘根本原因,这些过程都是非常耗时且繁琐的,可能需要大量的人力和资源投入。

为了解决以上问题,需要新一代的 AIOps 解决方案,数据融合分析实现自动化、全栈的数据全链路可观测,更易使用、所见即所得的报表和诊断规则,通过 AI 加持、更高效的自动检测异常并快速定位根因, AIOps 已为运维工作带来革命式变革。



日志服务 SLS 如何提升效率?

SLS 自动化全栈采集数据


  • 云基础设施可观测 Alibaba Cloud Lens:提供跨账号、跨区域、统一的云产品运维数据采集,支持自动采集计量、指标、访问日志等数据


  • 应用可观测 全栈可观测:全栈数据采集、客户端到服务端、基础设施到应用,数据关联分析、跨多种数据源、完备分析语法、丰富上下文支持


  • 安全审计 日志审计:50+ 数据源自动接入,安全态势可视化图表,内置 100+安全规则告警监控,提供多账号管理、跨账号、跨地域采集的中心化存储


SLS 开箱即用的报表和诊断规则


  • CloudLens 内置规则:全面的云产品辅助运维分析,支持消费组/API/Grafana 等灵活订阅的数据平台
  • 全栈可观测内置告警:实时告警、事件管理系统、告警收敛,可定制仪表盘、内置异常检测和根因分析
  • Security 内置规则:满足合规、等保、网安法、GDPR 等标准,内置近百个安全合规监控规则


SLS 开放兼容的数据生态


  • SLS 提供开放兼容的数据生态,兼容多种数据源,统一采集。


  • SLS 兼容开源、高性价比的可观测存储分析平台。内置 Serverless 分析能力,兼容开源引擎与工具,兼容 Elasticsearch、Kafka、Prometheus、CK,99% 的情况下无缝迁移。


  • SLS 是离线数仓、数据湖入湖的最佳方案,和三方 SIEM 对接提供 SecOps 云上安全审计,并支持多种告警通知渠道。



IT 运维场景的基础模型创新


阿里云日志服务 SLS 致力于打造高效、可观测的运维解决方案,凭借其多年的运维经验以及大语言模型的支持,不断提升其在此领域的竞争力。近期 SLS 发布智能运维基础模型,覆盖 Log、Trace、Metric 等可观测数据场景,支持指标的异常检测、文本的分词标注、Trace请求的高延时分析。模型提供开箱即用的异常检测、自动标注、分类和根因分析等能力。支持秒级在数千请求内定位到根因,在生产中准确率达 95%以上

此外,SLS 提供人工辅助微调。在日志服务平台上,原生支持对 Log、Metric、Trace 的标注反馈能力,让客户在使用的过程中可以快速进行标注、结果打标修正,沉淀符合特定场景的数据集。通过平台的标注能力,让客户从零开始积累高质量的运维数据标签,为未来的根因诊断模型的训练提供了无限可能。在未来,客户可以针对自己标注的数据在特定领域的模型上进行微调,并行快速部署,创建私有的模型服务。支持自动标注人工辅助微调,支持人工标注结果打标修正,模型根据人工反馈自动微调,提升场景准确率。

SLS 让大语言模型辅助生成查询语句,成为重要的智能助手。发布 Alibaba CloudLens Copilot 大模型助力云设施运维与运营。采用基于大语言模型的 NL2Query 技术,精准理解用户的查询意图,提高查询结果准确性;无需理解复杂的 SQL 语言和查询语法,可准确将自然语言查询转化为 SQL 查询和可视化图表;建立场景化的知识图谱,持续学习,不断优化模型调整和知识库更新,不断改进问题解答的准确性和效果。


场景示例:智能异常分析检测与根因分析


针对某游戏用户在游戏服务系统调用和依赖关系复杂的场景,我们提出了一种解决方案。该方案利用服务中的 Trace数据自动生成拓扑图,并围绕高延时分析、高错误率分析、系统热点和瓶颈等方面进行分析和诊断,以缩短问题处理时间并优化系统延时。


通过自动生成的拓扑图,我们可以快速定位海量 Trace 数据中的异常根因和性能瓶颈,无需人工干预。这种方法可以提高大规模分布式系统的异常定位效率,并实现数千请求每秒级别的根因定位。在生产环境中,该方案的准确率可达到 95%。



智能运维基础模型

传统的 AIOps 技术如异常检测、根因定位等主要有以下两个问题:


  • AIOps 算法涉及到很多阈值、规则的配置,在不同业务场景这些配置项都需要反复测试选择。因此算法的维护成本比较高,很难随着业务场景的变化而演进


  • AIOps 模型的构建一般使用私域数据,往往存在数据数量较少、质量较差的问题。这导致了模型的泛化性、迁移能力较差,在不同的业务场景往往需要重新构建

针对以上痛点,SLS 推出智能运维通用模型能力,我们分别构建了用于对 Log、Trace、Metric 这三类可观测数据进行分析的基础模型,提供开箱即用的异常检测算法、根因分析和自动打标等能力。支持秒级在数千请求内定位到根因,在生产中准确率达 95%以上。对于不同的数据类型,我们选择了不同的任务对模型进行预训练:


  • Metric 基础模型:可准备识别时序异常检测、时序预测、形态检测等,辅助做好更加智能的巡检
  • Log 基础模型:针对日志场景,提供丰富的 LogNER 的能力,辅助抽取带有语义信息的日志模板
  • Trace 基础模型:支持 OT 协议的 Trace 数据的高延时诊断

特定领域的基础模型,开箱即用,省略了复杂的部署流程,一键触达,大大降低客户对日志服务基础能力的使用门槛。客户无需在特定的场景中进行模型微调,直接通过日志服务提供的通用基础模型就可以达到不错的效果。

Alibaba Cloud Lens Copilot 大模型辅助基础设施运维与运营

Alibaba Cloud Lens Copilot 大模型助力云设施运维与运营,有效解决了通过 LLM 不了解 SLS 语法,缺少业务领域知识以及缺少高质量的问答语料等问题。


  • 准确识别意图:使用基于大语言模型的 NL2Query 技术,精准理解用户的查询意图,提高查询结果准确性


  • 所见即所得的结果与报表:无需理解复杂的 SQL 语言和查询语法,准确将自然语言查询转化为 SQL 查询和可视化图表


  • 自动学习资产数据:融合 Alibaba Cloud Lens 中的资产数据与知识图谱,持续学习资产数据、自动优化模型调整

总结 

通过 AI 能力的加持,SLS 的智能分析能力将得到全面升级。SLS 致力于利用数据和算法来辅助 AIOps 创新,具备以下优势:


  • 易于使用
  • 客户可以在日志服务控制台上,轻量的触达指标异常检测、日志文本智能分词、Trace 链路高延时诊断等能力,让客户感觉模型无处不在
  • 特定领域的基础模型,开箱即用,省略了复杂的部署流程,一键触达
  • 本次推出特定领域的大语言模型,可大大降低客户对日志服务基础能力的使用门槛,让大语言模型辅助生成查询语句,成为重要的智能助手


  • 灵活性
  • 客户无需在特定的场景中进行模型微调,直接通过日志服务提供的通用基础模型就可以达到不错的效果
  • 在日志服务平台上,原生支持对 Log、Metric、Trace 的标注反馈能力,让客户在使用的过程中可以快速进行标注,沉淀符合特定场景的数据集


  • 可扩展性
  • 借助阿里云强大的算力支持,日志服务内置提供的基础通用模型可以实现快速的扩容和服务迁移
  • 在未来,客户可以针对自己标注的数据在特定领域的模型上进行微调,并行快速部署,创建私有的模型服务
相关实践学习
日志服务之数据清洗与入湖
本教程介绍如何使用日志服务接入NGINX模拟数据,通过数据加工对数据进行清洗并归档至OSS中进行存储。
相关文章
|
7天前
|
数据采集 人工智能 数据可视化
「AI工程师」数据处理与分析-工作指导
**数据分析师工作指南概要** 该工作指导书详细阐述了数据分析师的职责,包括数据收集、清洗、整合处理以及分析挖掘。分析师需确保数据质量,运用统计和机器学习方法发现洞察,并通过可视化报告支持决策。此外,他们需维护高效的工作流程,使用编程工具优化处理,并遵循数据收集、分析及报告编写规范。成功执行此角色要求深厚的技术基础、沟通协作能力以及持续学习的态度。
17 1
「AI工程师」数据处理与分析-工作指导
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
智能引领未来:精准选择与高效利用AI技术的实战指南
【7月更文第14天】在当今科技飞速发展的时代,人工智能(AI)已不再局限于科幻电影的想象,而是成为了推动各行各业革新升级的核心驱动力。从自动驾驶汽车到个性化推荐系统,从医疗诊断辅助到智能制造,AI正深刻改变着我们的生活和工作方式。然而,面对琳琅满目的AI技术和工具,如何精准选择并高效利用AI,成为企业和开发者亟需解决的关键问题。本文将为您揭示这一过程中的核心策略与实践技巧,并通过一个简单的代码示例,让您直观感受AI技术的魅力。
23 3
|
3天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在系统管理中的应用与挑战
本文将深入探讨人工智能(AI)技术在运维领域的应用,分析其带来的效率提升和成本节约,同时指出实施过程中可能遇到的技术和管理挑战。文章还将提供针对这些挑战的应对策略,以期为运维专业人士提供指导和参考。
|
5天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与机器学习在IT管理中的应用
【7月更文挑战第10天】本文深入探讨了人工智能和机器学习如何革新传统的IT运维领域。文章首先界定了智能化运维的概念,随后分析了AI技术在故障预测、自动化处理和安全监控方面的应用实例,并讨论了实施智能化运维时面临的挑战及其克服策略。最终,文章展望了智能化运维的未来趋势,强调了持续学习和适应新技术的重要性。
|
6天前
|
人工智能 移动开发 Java
Java智能之Spring AI:5分钟打造智能聊天模型的利器
尽管Python最近成为了编程语言的首选,但是Java在人工智能领域的地位同样不可撼动,得益于强大的Spring框架。随着人工智能技术的快速发展,我们正处于一个创新不断涌现的时代。从智能语音助手到复杂的自然语言处理系统,人工智能已经成为了现代生活和工作中不可或缺的一部分。在这样的背景下,Spring AI 项目迎来了发展的机遇。尽管该项目汲取了Python项目如LangChain和LlamaIndex的灵感,但Spring AI并不是简单的移植。该项目的初衷在于推进生成式人工智能应用程序的发展,使其不再局限于Python开发者。
23 2
|
5天前
|
人工智能 运维 自然语言处理
当Linux遇上AI:探索操作系统中的智能新纪元
阿里云的OS Copilot是专为Linux打造的智能助手,利用大模型提供自然语言交互、命令辅助及运维优化。它简化编程任务,生成脚本框架,提供代码审查建议,适合开发者和运维人员。
44 0
当Linux遇上AI:探索操作系统中的智能新纪元
|
7天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在IT管理中的应用与挑战
随着人工智能(AI)技术的不断进步,其在信息技术(IT)运维领域的应用日益广泛。从自动化故障检测到智能决策支持系统,AI技术正逐步改变着传统运维的面貌。本文将探讨AI在IT运维中的具体应用场景,分析其带来的效率提升和成本节约,同时指出实施过程中可能遇到的技术和管理上的挑战,并提出相应的解决策略。通过深入分析,本文旨在为IT管理者提供一份关于如何有效整合AI技术以优化运维实践的参考指南。
|
4天前
|
数据采集 机器学习/深度学习 人工智能
智能化运维的崛起:AI在IT管理中的革命性角色
本文深入探讨了人工智能(AI)技术如何重塑传统IT运维领域,通过具体案例、统计数据和比较分析,揭示AI在提高运维效率、降低成本以及预测和解决系统问题方面的显著优势。文章旨在为读者提供一个关于AI在现代IT运维中不可或缺作用的全景视图,同时强调了在实施智能运维解决方案时需考虑的关键因素。
|
4天前
|
人工智能 监控 算法
智能时代下的AI伦理挑战与应对策略
随着人工智能技术的飞速发展,其在各行各业的应用日益广泛。然而,AI技术带来的便利性背后隐藏着诸多伦理问题,如隐私泄露、算法偏见和责任归属等。本文从技术发展的角度出发,探讨了当前AI技术面临的主要伦理挑战,并提出了相应的应对策略。通过分析不同案例,本文旨在为AI技术的健康发展提供指导性建议,以促进技术创新与社会伦理的和谐共生。
7 0
|
6天前
|
机器学习/深度学习 人工智能 算法
智能革命的新篇章:AI在医疗诊断中的应用与挑战
随着人工智能技术的飞速发展,其在医疗领域的应用已逐步深入到临床诊断、治疗方案制定以及患者监护等多个环节。通过深度学习算法,AI能够处理和分析大量医疗数据,辅助医生进行更精确的诊断。然而,技术的快速发展也带来了一系列挑战,包括数据隐私保护、算法透明度、以及医疗伦理问题等。本文将探讨AI在医疗诊断中的具体应用案例,并对其面临的主要挑战进行分析,以期为未来AI技术在医疗领域的健康发展提供参考。
19 0

相关产品

  • 日志服务