异常行为监控

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 用户系统中如果出现任何的异常数据,比如一个运维系统的CPU消耗突然增高,比如平台突然有大量不良信息产生,比如有用户大量薅羊毛,这些行为都是平台的异常指标。如果能通过机器学习的方式帮助用户针对各种异常指标做预防和实时预警,将大大建设平台方的风险。

业务背景

用户系统中如果出现任何的异常数据,比如一个运维系统的CPU消耗突然增高,比如平台突然有大量不良信息产生,比如有用户大量薅羊毛,这些行为都是平台的异常指标。如果能通过机器学习的方式帮助用户针对各种异常指标做预防和实时预警,将大大建设平台方的风险。

业务痛点

缺乏一种实时高效的方式监控平台指标,增强平台的智能化安全防卫能力。

解决方案

PAI平台提供了一套基于指标监控的分类算法,可以把异常指标监控抽象为一个二分类场景,并且把监控模型部署到在线系统实时调用,实现近线风控。

1.人力要求:需要懂机器学习经典算法特别是特征工程以及二分类算法的同学

2.开发周期:1-2天

3.数据要求:已经达标过的数据上千条,标记出哪些数据是异常数据,哪些是非异常数据

数据说明

文案例使用的数据是一份系统级别监控日志数据,一共22544条数据,其中异常数据9711条。

数据说明:

参数名称 参数描述
protocol_type 网络连接协议,有tcp、icmp、udp等
service 服务协议,有http、finger、pop、private、smtp等
flage SF、RSTO、REJ
a2~a38 不同的一些系统指标
class 标签字段,其中normal为正常样本,anomaly为异常样本

流程说明

进入PAI-Studio产品:https://pai.data.aliyun.com/console

该方案数据和实验环境已经内置于首页模板:

打开实验:

1. 数据源

数据说明中提到的数据。

2. 特征工程

one-hot特征编码组件可以自动将特征由字符型向数值型转变,是机器学习领域最常见的数据编码方式。

归一化组件可以将所有数据的范围都限定到0~1之间,去除量纲的影响。归一化后数据如下图:

利用SQL组件把目标列是anomaly的标记为1,正常指标标记为0。

select (case class  when 'anomaly' then 1 else 0 end) as class from  ${t1};

3. 模型训练

根据正常和非正常样本训练监控模型是一个典型的二分类问题,使用机器学习领域中的逻辑回归二分类算法就能达到比较好的效果。

4. 模型评估

PAI平台提供二分类模型的评估组件,可以通过AUC、KS、F1Score等指标评估模型的好坏,本实验的模型预测准确率超过了90%。

总结

PAI平台提供了特征编码、模型训练、模型评估全方位的功能,只要能把平台产生的异常行为的特征抽取出来并标记,就可以基于PAI快速构建异常指标监控模型。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
5月前
|
监控 Java
jvm异常排查
jvm异常排查
23 0
|
6月前
统一500异常( 非抛出的异常)
统一500异常( 非抛出的异常)
|
7月前
|
调度
SSB配置异常引起的问题
这篇是两个SSB配置异常导致的问题总结,第一个问题很简单,但是由于第一次看到这种log,看起来也比较蒙,另外也是没想到还能有这么弱鸡的问题;之后又遇到了另外一个SSB相关的问题,因为涉及时频域资源的确定,看起来相对来说就比较费劲,这两个都是lab问题。
|
7月前
|
监控 前端开发 小程序
前端异常监控平台对比
前端异常监控平台对比
222 0
|
9月前
|
JSON 监控 Dubbo
基于SkyWalking的分布式跟踪系统 - 异常告警
基于SkyWalking的分布式跟踪系统 - 异常告警
194 0
|
10月前
|
Java
线上异常日志没有堆栈信息
只能在本地调试查找异常位置,但是在本地调试过程中却可以打印异常堆栈的。后来继续查找之前的日志,之前的某段时间这个地方是存在异常堆栈信息的。
186 0
|
Kubernetes 监控 网络性能优化
k8s诊断之记一次业务pod被异常删除的分析
某用户反馈,头一天晚上21:05左右,某几个deployment的pod被重建了一遍,客户的pod有特殊限制,基本可以保证1个节点上就只有这一个pod独占,客户怀疑后端异常导致
865 0
|
存储 监控 Kubernetes
k8s诊断之记一次pod oom的异常shmem输出
客户反馈java设置xms,xmx参数固定8G内存,而pod的limit则为16G, 三番五次出现了pod oom的情况,且oom的时候他的业务进程输出也是8g, 同时promethus的监控对应pod的working_set_memory也是8个多g, 剩下的几个g的内存到底去哪里了呢?
2448 1
k8s诊断之记一次pod oom的异常shmem输出
|
SQL 缓存 监控
聊聊什么是慢查、如何监控?如何排查?
今天我要跟你分享的话题是:“聊聊什么是慢查、如何监控?如何排查?”
231 0
|
SQL 运维 监控
监控异常操作频率并报警
当企业上云后,监控云资源的异常操作就是一件非常重要的事情。如何监控这些异常操作呢?答案就是操作审计。接下来就以一些实际场景为例,介绍如何基于操作审计,监控云上异常操作或操作频率,进行报警。
监控异常操作频率并报警

相关产品

  • 人工智能平台 PAI