如何将“智能巡检”嵌入“业务系统”中?

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 智能巡检借助强大的SLS“告警2.0”消息系统,可以很好的桥接很多内部和外部的系统(EventBridge、FC等),也可以借助SLS的SDK和自定义的函数去解决针对“告警结果”的下一步“分析任务”,从而更好的实现对于问题的排查和解决。

产品架构

智能异常分析应用围绕运维场景中的监控指标、程序日志、服务关系等核心要素展开,通过机器学习等手段产生异常事件,通过服务拓扑关联分析时序数据和事件,最终降低企业的运维复杂度,提高服务质量。产品架构图如下所示。

能力说明:

  • 单个任务支持3K~5K个观测对象的单维度、多维度的异常检测
  • 对于任务的检测结果而言,我们将异常分数和异常形态进行量化,便于进行后续的处理
  • 对于超过0.75分数的异常点,我们将相关的信息(可视化的图)通过告警2.0推送到您的钉钉系统中去
  • 对于全部的检测结果,我们将检测信息写入到当前的internal-ml-log中去,供您通过SDK去进行后续的集成
  • 同时在我们的App的任务页面,我们支持了“标注反馈”功能,您可以对检测的结果进行相关的标注,提升模型的学习准确度

那么接下来,我们一起来看下,如何更好的将“巡检”能力嵌入到您的业务系统中去!

能力集成

智能巡检借助强大的SLS“告警2.0”消息系统,可以很好的桥接很多内部和外部的系统(EventBridge、FC等),也可以借助SLS的SDK和自定义的函数去解决针对“告警结果”的下一步“分析任务”,从而更好的实现对于问题的排查和解决。

任务创建

这里我们以一个SLS的自身的监控场景为例去看下改工具具体要怎么更好的使用。我们想明确下场景的问题:在LogStore中,通过对访问日志的拆解我们可以拿到如下结构化信息(见下图)。很多客户的实际业务场景也是类似的,在访问日志中记录着客户的访问行为,通过巡检当前业务的黄金指标,我们可以很好的知道目前服务中各个API接口的服务能力。

根据上述的结构,我们定义当前的需要巡检的黄金指标:

  • 某集群各服务接口每分钟成功响应的次数
  • 某集群各服务接口每分钟失败响应的次数
  • 某集群各服务接口每分钟成功平均响应延时
  • 某集群各服务接口每分钟失败平均响应延时
*|SELECT   __time__ - __time__ %60AStime,         method,Count(*)AS total,         Count_if(status=200)AS n_succ,         Sum(         CASE
                  WHEN status=200 THEN latency
                  ELSE 0         END)/(1+ Count_if(status=200))AS avg_succ_latency,         Sum(         CASE
                  WHEN status!=200 THEN latency
                  ELSE 0         END)/(1+ Count_if(status!=200))AS avg_fail_latency
FROM     log
GROUPBYtime,         method limit100000

当然,我们还有另外一个形式的黄金指标,用来进行后续的监控,我们可以仅关注请求失败的接口中的数量的变化,具体的SQL如下

not STATUS:200|SELECT   __time__ - __time__ %60AStime,         method,         status,Count(*)AS num
FROM     log
GROUPBYtime,         method,         status limit100000

我们【智能异常检测】App中完成作业的配置。入口地址 https://sls.console.aliyun.com/lognext/profile

结果说明

通过上述配置,我们得到了一个【智能时序巡检】任务,我们根据下面的结果,介绍下截图中各部分的含义:

  • 【巡检实体数量】:当前任务中一共包含了多少个观测对象
  • 【巡检指标数量】:当前任务中每个观测对象的观测维度
  • 【实体信息列表】:当前任务中全部参与巡检的观测对象,且给每个对象提供一个唯一编码
  • 【异常事件列表】:当前选中的实体,在给定的时间窗口中,给定的过滤条件下的异常分数和异常类型

上述截图中的可视化信息均来自对应的Project下面的LogStore【internal-ml-log】中,关于这个logstore中存储的数据的详细说明,可以参考我们的官网文档。https://help.aliyun.com/document_detail/356466.html


告警使用

您可以通过在【巡检任务】创建的最后一步中,配置多种消息发送逻辑

  • 钉钉-自定义
  • 事件总线(EventBridge)
  • 函数计算(FC)

通过SDK/钉钉发送消息

这里面的详细配置逻辑以及解释不在赘述,更多信息可以参考这个链接:https://developer.aliyun.com/article/851142 里面较为详细的介绍了在告警中您可以使用那些字段进行后续的操作和判别。当巡检任务发现一个异常时,会将具体的信息按照如下的模版推送到钉钉的webhook地址。

函数计算(FC)

关于配置函数计算去进行后续操作的部分细节可以参考 https://help.aliyun.com/practice_detail/419622

这里我们简单的说在下一步的分析思路:

参考资料

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
相关文章
|
3月前
|
Web App开发 人工智能 运维
无缝融入,即刻智能[1]:MaxKB知识库问答系统,零编码嵌入第三方业务系统,定制专属智能方案,用户满意度飙升
【8月更文挑战第1天】无缝融入,即刻智能[1]:MaxKB知识库问答系统,零编码嵌入第三方业务系统,定制专属智能方案,用户满意度飙升
无缝融入,即刻智能[1]:MaxKB知识库问答系统,零编码嵌入第三方业务系统,定制专属智能方案,用户满意度飙升
|
4月前
|
传感器 机器学习/深度学习 人工智能
怎样实现船舶自动化系统的高效精准控制?
怎样实现船舶自动化系统的高效精准控制?
47 0
|
6月前
|
机器学习/深度学习 人工智能 运维
智能化运维:基于AI的系统异常检测与自动修复策略
【5月更文挑战第29天】 在现代IT基础设施管理领域,智能化运维正逐步成为推动效率和稳定性的关键因素。本文深入探讨了人工智能(AI)技术在系统异常检测和自动化故障修复中的应用,提出了一个集成的智能运维框架。该框架利用机器学习算法分析历史数据,实时监控关键性能指标,并在检测到潜在问题时触发自动化修复流程。通过这一方法,我们旨在降低人工干预的需求,提高系统的可靠性和业务连续性。
|
6月前
|
监控 安全 5G
UWB人员精准定位系统源码,实现实时定位、人机料配对、物料标签配置、智慧调度、轨迹追踪
人员定位管理系统通过在厂区、车间部署UWB定位基站,实时采集人员、机具、物料上定位标签回传的位置信息数据,采用多维定位模式,精确定位人、机具、物料的实时位置,实现实时定位、人机料配对、物料标签配置、智慧调度、轨迹追踪、工时统计、区域物料统计、电子围栏等应用功能。
122 1
|
6月前
|
人工智能 监控 安全
《机器人流程自动化能力评估体系 第1部分:系统和工具》行标发布
《机器人流程自动化能力评估体系 第1部分:系统和工具》(YD/T 4391.1-2023)是国内首部正式发布的RPA行业标准,标准的发布实施填补了我国RPA行业产品标准的空白,在相关行业发展中具有里程碑意义。
145 0
|
存储 运维 监控
华汇数据运维自动化巡检-实时在线监控-实现精准化管理
运维自动化可以大大提高运维的主动性和准确性,减少技术人员的工作强度,将精力转到运维策略规划、问题分析等有价值的工作中
356 0
华汇数据运维自动化巡检-实时在线监控-实现精准化管理
|
存储 运维 分布式计算
如何设计信息安全领域的实时安全基线引擎
奇安信集团高级技术专家覃永靖在 FFA 2021 的分享
如何设计信息安全领域的实时安全基线引擎
|
数据挖掘
重点人员动态管控预警系统开发方案,情报研判分析平台建设
重点人员动态管控预警系统开发方案运用新一代信息技术和智能化大数据分析,统一构建重点人员管控系统。将辖区内的各类重点人员的基本信息统一采集录入,更新,统一汇总分析研判,分类采取管控措施。
616 0
|
机器学习/深度学习 消息中间件 存储
监控指标10K+!携程实时智能检测平台实践
本文将介绍携程实时智能异常检测平台——Prophet。到目前为止,Prophet 基本覆盖了携程所有业务线,监控指标的数量达到 10K+,覆盖了携程所有订单、支付等重要的业务指标。Prophet 将时间序列的数据作为数据输入,以监控平台作为接入对象,以智能告警实现异常的告警功能,并基于 Flink 实时计算引擎来实现异常的实时预警,提供一站式异常检测解决方案。
监控指标10K+!携程实时智能检测平台实践
|
新零售 监控
阿里云风险识别决策引擎发布
信息摘要: 风险识别推出风控一站式运营管理平台-决策引擎,助力于企业风控运营统筹管理与智能化升级。适用客户: 金融、电商零售、互动媒体、游戏娱乐等行业的企业用户版本/规格功能: 决策引擎提供个性化业务场景事件管理,可视化编排复杂决策,丰富的特征变量与场景识别服务、实时监控日志等功能,可满足多种业务场景下复杂策略的统筹运营与管理需求。
2515 0
下一篇
无影云桌面