SLS 智能运维 AI 基础模型创新

2023-12-22 91377

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

简介： SLS 全新发布运维场景基础模型，覆盖 Log、Metric、Trace 等可观测数据场景，模型提供开箱即用的异常检测、自动标注、分类和根因分析等能力；根因分析算法千级异常请求秒级定位，生产中准确率达95%；同时支持人工辅助微调，提供人工标注、结果打标修正，模型根据人工反馈自动微调，提升场景准确率。

AIOps 为运维工作带来革命式变革

随着云计算技术不断升级，承载业务的 IT 基础设施规模扩大，各个应用之间的链路关系变得越来越复杂，每时每刻都在产生海量级的日志。对日志数据的采集、存储与分析处理方式，是衡量企业系统数字化程度的重要标志。传统的 IT 运维方案也会面临非常大的挑战，对于 DevOps 来说，需要花费数小时进行查找、对比和分析，以解决一个问题。这可能涉及到查看各种日志、监控数据和其他相关信息，以找出问题的根源。而对于 SecOps 来说，需要在海量的数据中进行深度分析，意味着他们需要从数百 TB 的数据中，从异常中快速挖掘根本原因，这些过程都是非常耗时且繁琐的，可能需要大量的人力和资源投入。

传统的 AIOps 技术如异常检测、根因定位等主要有以下两个问题

AIOps 算法涉及到很多阈值、规则的配置，在不同业务场景这些配置项都需要反复测试选择。因此算法的维护成本比较高，很难随着业务场景的变化而演进
AIOps 模型的构建一般使用私域数据，往往存在数据数量较少、质量较差的问题。这导致了模型的泛化性、迁移能力较差，在不同的业务场景往往需要重新构建

针对以上痛点，SLS 推出智能运维通用模型能力。我们分别构建了用于对 Log、Trace、Metric 这三类可观测数据进行分析的基础模型，提供开箱即用的异常检测算法、根因分析和自动打标等能力。支持秒级在数千请求内定位到根因，在生产中准确率达 95%以上。对于不同的数据类型，我们选择了不同的任务对模型进行预训练：

Metric 基础模型：可准备识别时序异常检测、时序预测、形态检测等，辅助做好更加智能的巡检
Log 基础模型：针对日志场景，提供丰富的 LogNER 的能力，辅助抽取带有语义信息的日志模板
Trace 基础模型：支持 OT 协议的 Trace 数据的高延时诊断

特定领域的基础模型，开箱即用，省略了复杂的部署流程，一键触达，大大降低客户对日志服务基础能力的使用门槛。客户无需在特定的场景中进行模型微调，直接通过日志服务提供的通用基础模型就可以达到不错的效果。

SLS 发布智能运维场景的基础模型

近期 SLS 发布智能运维基础模型，覆盖 Log、Trace、Metric 等可观测数据场景，支持指标的异常检测、文本的分词标注、Trace请求的高延时分析。模型提供开箱即用的异常检测、自动标注、分类和根因分析等能力。支持秒级在数千请求内定位到根因，在生产中准确率达 95%以上。

此外，SLS 提供人工辅助微调。在日志服务平台上，原生支持对 Log、Metric、Trace 的标注反馈能力，让客户在使用的过程中可以快速进行标注、结果打标修正，沉淀符合特定场景的数据集。通过平台的标注能力，让客户从零开始积累高质量的运维数据标签，为未来的根因诊断模型的训练提供了无限可能。

在未来，客户可以针对自己标注的数据在特定领域的模型上进行微调，并行快速部署，创建私有的模型服务。支持自动标注人工辅助微调，支持人工标注结果打标修正，模型根据人工反馈自动微调，提升场景准确率。

AI 基础模型 - Metric 模型的介绍

Metric 基础模型收集海量真实指标数据，尝试语言模型在指标数据上的迁移能力，具备开箱即用的指标异常检测能力。Metric 基础模型核心能力如下：

针对 AIOps 领域数据多样：涉及了日志场景中的 20+ 类别的数据，涉及其中核心的 KPI 指标数量达到 15W+，指标实体数量达到 3W+，收集近 90 天的观测数据。
附带元数据的特征编码：时序数据的划分需要动态的适配数据的形态，考虑时序数据中的时间戳特性
下游任务拆解，包括 filling Blanks，fragment classfication，short term predication。