异常行为监控

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 用户系统中如果出现任何的异常数据,比如一个运维系统的CPU消耗突然增高,比如平台突然有大量不良信息产生,比如有用户大量薅羊毛,这些行为都是平台的异常指标。如果能通过机器学习的方式帮助用户针对各种异常指标做预防和实时预警,将大大建设平台方的风险。

业务背景

用户系统中如果出现任何的异常数据,比如一个运维系统的CPU消耗突然增高,比如平台突然有大量不良信息产生,比如有用户大量薅羊毛,这些行为都是平台的异常指标。如果能通过机器学习的方式帮助用户针对各种异常指标做预防和实时预警,将大大建设平台方的风险。

业务痛点

缺乏一种实时高效的方式监控平台指标,增强平台的智能化安全防卫能力。

解决方案

PAI平台提供了一套基于指标监控的分类算法,可以把异常指标监控抽象为一个二分类场景,并且把监控模型部署到在线系统实时调用,实现近线风控。

1.人力要求:需要懂机器学习经典算法特别是特征工程以及二分类算法的同学

2.开发周期:1-2天

3.数据要求:已经达标过的数据上千条,标记出哪些数据是异常数据,哪些是非异常数据

数据说明

文案例使用的数据是一份系统级别监控日志数据,一共22544条数据,其中异常数据9711条。

数据说明:

参数名称 参数描述
protocol_type 网络连接协议,有tcp、icmp、udp等
service 服务协议,有http、finger、pop、private、smtp等
flage SF、RSTO、REJ
a2~a38 不同的一些系统指标
class 标签字段,其中normal为正常样本,anomaly为异常样本

流程说明

进入PAI-Studio产品:https://pai.data.aliyun.com/console

该方案数据和实验环境已经内置于首页模板:

打开实验:

1. 数据源

数据说明中提到的数据。

2. 特征工程

one-hot特征编码组件可以自动将特征由字符型向数值型转变,是机器学习领域最常见的数据编码方式。

归一化组件可以将所有数据的范围都限定到0~1之间,去除量纲的影响。归一化后数据如下图:

利用SQL组件把目标列是anomaly的标记为1,正常指标标记为0。

select (case class  when 'anomaly' then 1 else 0 end) as class from  ${t1};

3. 模型训练

根据正常和非正常样本训练监控模型是一个典型的二分类问题,使用机器学习领域中的逻辑回归二分类算法就能达到比较好的效果。

4. 模型评估

PAI平台提供二分类模型的评估组件,可以通过AUC、KS、F1Score等指标评估模型的好坏,本实验的模型预测准确率超过了90%。

总结

PAI平台提供了特征编码、模型训练、模型评估全方位的功能,只要能把平台产生的异常行为的特征抽取出来并标记,就可以基于PAI快速构建异常指标监控模型。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
2月前
|
安全 程序员 编译器
【C++】异常
C++异常处理机制允许在程序运行时出现错误时,通过`try`、`catch`和`throw`关键字将错误信息传递回调用栈,进行异常处理。它支持异常的重新抛出、自定义异常体系以及标准库提供的异常类层次结构,如`std::exception`及其派生类。异常处理提高了代码的健壮性和可维护性,但也带来了性能开销和代码复杂性等问题。合理使用异常机制,可以有效提升程序的稳定性和安全性。
67 3
|
4月前
|
JSON 缓存 fastjson
一行日志引发的系统异常
本文记录了一行日志引发的系统异常以及作者解决问题的思路。
102 11
|
运维 编译器 C语言
异常(C++)
异常(C++)
79 1
|
安全
异常
异常
83 0
|
安全 Java 程序员
C++ 异常
C++ 异常
54 0
SSB配置异常引起的问题
这篇是两个SSB配置异常导致的问题总结,第一个问题很简单,但是由于第一次看到这种log,看起来也比较蒙,另外也是没想到还能有这么弱鸡的问题;之后又遇到了另外一个SSB相关的问题,因为涉及时频域资源的确定,看起来相对来说就比较费劲,这两个都是lab问题。
|
JSON 监控 Dubbo
基于SkyWalking的分布式跟踪系统 - 异常告警
基于SkyWalking的分布式跟踪系统 - 异常告警
324 0
|
Java 程序员 编译器
理解并处理异常
理解并处理异常
91 0
理解并处理异常
|
Kubernetes 监控 网络性能优化
k8s诊断之记一次业务pod被异常删除的分析
某用户反馈,头一天晚上21:05左右,某几个deployment的pod被重建了一遍,客户的pod有特殊限制,基本可以保证1个节点上就只有这一个pod独占,客户怀疑后端异常导致
1125 0
|
SQL 缓存 监控
聊聊什么是慢查、如何监控?如何排查?
今天我要跟你分享的话题是:“聊聊什么是慢查、如何监控?如何排查?”
301 0