「应用实时监控 ARMS 」斩获「根因分析技术」先进级认证

本文涉及的产品
性能测试 PTS,5000VUM额度
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 「应用实时监控 ARMS 」斩获「根因分析技术」先进级认证

阿里云云原生可观测 ARMS 率先斩获「根因分析技术」先进级认证


7 月 25 日,由中国信通院发起的“2023 可信云-系统稳定性”首批评估结果在可信云大会现场公布,应用实时监控服务 ARMS 斩获《可观测性标准体系要求 - 根因分析技术分级能力要求》“先进级”认证,使阿里云成为信通院云服务“稳定性守护者”企业代表。



云原生技术正在激活应用构建新范式,构筑企业业务运行新基石。在推动各行各业拥抱云原生、用技术加速创新的过程中,阿里云云原生致力于为企业提供系统稳定、资源弹性、应用敏捷、业务智能、可信安全的五大核心价值,通过输出先进的技术服务和完整的产品体系,让企业放心用云、用好云。


同时,阿里云云原生坚持与业界同行,积极参与信通院各项云原生规模化落地标准制定和推广的共建工作中。本次阿里云云原生作为参编方协同构建首个信通院“可观测性标准体系”,为业界提供可观测性建设评估与度量方案,促进上层业务稳定性和业务连续性,提升应用的风险可控能力。


应用实时监控服务 ARMS 获根因分析技术能力“先进级”认证

本次可信云的可观测性标准体系根因分析技术分级能力要求标准涵盖了数据采集、决策分析、展示输出和配置管理 4 大类别,共计 112 个测试项。其中,应用实时监控服务 ARMS 在此次根因分析标准评测中通过 109 个用例,在数据的采集、根因类型、分析方式、异常告警及方案推荐等表现亮眼,体现出阿里云云原生可观测在数据采集能力、根因分析能力、展示输出能力均达到行业领先水平。最终应用实时监控服务 ARMS 通过了《可观测性标准体系要求 - 根因分析技术分级能力要求》标准的评估,成功获评为首批先进级!



ARMS Insights 是应用实时监控服务 ARMS 结合可观测领域的各类共性问题,集核心之力打造的 AIOps 拳头级产品功能。ARMS Insights 所具备的智能巡检、诊断能力,帮助企业减少问题发现配置复杂度,同时协助定位问题并缩短问题定位时间。ARMS Insights 利用应用实时监控服务 ARMS 丰富的数据源,通过自研的检测算法模型、智能归因模型,辅以代码级的专家插件,为企业提供一键式智能巡检和根因定位功能。



用户可以在 ARMS 控制台的智能洞察开启该功能。开启之后,ARMS Insights 将对接入到 ARMS 平台的应用等开始进行自动化的巡检。巡检到问题后,则自动进行根因定位分析。下图展示了某用户开启后收到的一些异常事件列表情况。点击查看详情,则可以看到当前异常事件具体的异常情况以及对应根因分析结论。



除了开箱即用的智能巡检和根因分析,ARMS Insights 开放检测范围供用户根据需要自行定义修改。



用户也可以在具体的某一种巡检配置场景下,如:是否只需要 TopN 以及 TopN 接口设置,应用/接口黑名单,以及检测阈值和异常阈值的定制化配置。



ARMS Insights 智能巡检


针对传统监控通过配置大量固定阈值报警发现问题方式有耗时、耗力、不准确的缺陷,Insights 智能巡检方案默认对所有接入 ARMS 的应用自动创建巡检定时任务。通过对应用性能指标 RT(平均响应时间)、Error(应用错误数)、QPS(平均请求量)建立特征指标,从而实时产生异常事件,用户可以通过订阅产生相应的报警。除此外,Insights 还支持对基础设施指标如:JVM 指标异常、流量不均等, 对应用实例离群等自动进行检测。


1. 错误率异常检测



2. 响应时间突增异常检测



3. 实例请求量离群异常检测



4. 流量突增异常检测



5. 新增异常预警



总结来说,ARMS Insights 智能巡检具备专业化、自动化、智能化的三大特点。ARMS Insights 巡检采用了多种业界通用算法,结合自研算法在“投票机制”、“分而治之”、“长短周期特征结合”思想指导下打造高召回,高准确检测能力,并提供智能异常区间定位,智能异常等级等特性,旨在为用户打造从发现问题到分析问题、定位问题的全链路闭环巡检能力。


ARMS Insights 根因定位


Insights 智能诊断一方面通过通过专家系统的经验模拟开发和运维人员的排查流程,另一方面通过算法进行排查流程中的决策,最后结合特性插件给出可能的根因帮助开发和运维人员减少根因定位的时间。


  • 诊断模板:构建模板化诊断分析过程
  • 算法决策:智能归因算法模型助力决策
  • 特征插件:深入到代码级的根因结论


举个例子:应用 A 部署在容器服务上,同时他自身对外部服务有依赖,在某个时刻应用 A 平均响应时间开始突增,如何进行根因定位,假设应用 A 的依赖拓扑如下图所示:



传统的监控系统根因定位流程如下:首先需要识别应用A基础设施是否有问题包括 CPU、内存、Load 等指标是否异常,其次需要找到热点接口可能是一个或多个,以上图 A-2 为例来看,此时需要排查接口 A-2 的调用链路可以发现其依赖应用 B 的  B-1 接口和应用 C 的 C-1 接口。此时需要从链路以及指标上对比是否继续下钻分析以及针对 B-1 还是 C-1 进行分析,同理后续分析过程中遇到数据库问题需要考虑是否是数据库连接池问题、慢 SQL 问题还是数据库服务端的问题等。可以看到整个分析过程比较繁杂,同时需要有一定的运维经验。


具体到产品功能页面来看,ARMS Insights 支持多种场景下,到代码级的根因定位分析:


1. 响应时间突增,根因为调用本地方法慢



点击疑似根因选项,可以继续查看当前根因对象的具体信息以及与之相关的方法栈、SQL 调用等信息。



2. 错误率异常,根因为本地方法出错




3. 错误率异常,根因为调用数据库出错



ARMS Insights 目前支持多种场景的代码及根因结论,总结如下:


特征插件场景 分析结果
数据库连接获取慢场景
  • 分析是否有慢 SQL
  • 分析异常时刻持有连接的接口
数据库整体执行慢
  • 分析异常时刻对应慢 SQL
  • 分析异常时刻数据库服务端异常(阿里云数据库)
  • 分析异常时刻慢 SQL 的索引(阿里云数据库)
访问远端 URL 慢场景
  • 获取远端访问 URL 的趋势
  • 获取远端访问 URL 的参数请求分布
异常数突增场景
  • 异常根因提取
  • socketTimeoutException访问 URL 提取相应参数提取
本地方法执行慢场景
  • 链路埋点定位具体方法
  • 线程堆栈存在情况下合并线程堆栈映射对应方法


相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
3月前
|
缓存 监控 前端开发
优化 Flutter 应用启动速度的策略,涵盖理解启动过程、资源加载优化、减少初始化工作、界面布局优化、异步初始化、预加载关键数据、性能监控与分析等方面
本文探讨了优化 Flutter 应用启动速度的策略,涵盖理解启动过程、资源加载优化、减少初始化工作、界面布局优化、异步初始化、预加载关键数据、性能监控与分析等方面,并通过案例分析展示了具体措施和效果,强调了持续优化的重要性及未来优化方向。
114 10
|
1月前
|
存储 人工智能 JSON
RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控
RAG Logger 是一款专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、检索结果记录、LLM 交互记录和性能监控等功能。
74 7
RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控
|
1月前
|
人工智能 运维 监控
ARMS:端到端全链路,应用可观测再进化
ARMS是一款应用实时监控产品,致力于端到端全链路应用可观测性的提升。本次分享涵盖五大方面:1) 端到端全链路应用可观测再进化;2) 企业级监控能力与智能化运维;3) 架构升级与智能助手应用;4) 智能化数据关联提升问题排查效率;5) 应用可观测体系的构建与优化。通过茶百道和极氪汽车的实际案例,展示了ARMS在提高运维效能、快速定位问题及减少无效告警等方面的显著效果。ARMS不断探索更多可能性,为用户提供更强大的产品能力。
|
2月前
|
监控 开发工具 Android开发
ARMS 用户体验监控正式发布原生鸿蒙应用 SDK
阿里云 ARMS 用户体验监控(RUM)推出了针对原生鸿蒙应用的 SDK。SDK 使用 ArkTS 语言开发,支持页面采集、资源加载采集、异常采集及自定义采集等功能,能够全面监控鸿蒙应用的表现。集成简单,只需几步即可将 SDK 接入项目中,为鸿蒙应用的开发者提供了强有力的支持。
168 13
|
3月前
|
存储 Prometheus 运维
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案。该集成结合了ARMS的基础设施监控能力和Prometheus的灵活配置及社区支持,实现了全面、精准的系统状态、性能和错误监控,提升了应用的稳定性和管理效率。通过统一的数据视图和高级查询功能,帮助企业有效应对云原生挑战,促进业务的持续发展。
94 3
|
7月前
|
运维 监控 Java
(十)JVM成神路之线上故障排查、性能监控工具分析及各线上问题排错实战
经过前述九章的JVM知识学习后,咱们对于JVM的整体知识体系已经有了全面的认知。但前面的章节中,更多的是停留在理论上进行阐述,而本章节中则更多的会分析JVM的实战操作。
169 1
|
7月前
|
缓存 监控 Java
Spring Boot应用的性能监控与优化
Spring Boot应用的性能监控与优化
|
8月前
|
运维 监控 网络协议
Linux 下的性能监控与分析技巧
在Linux环境中,命令行工具助力服务器管理和故障排查。通过示例展示如何监控网络、TCP连接、CPU及内存使用。例如,用`netstat`结合`awk`查TOP 20高频率IP访问80端口,识别DDoS迹象;`netstat -nat`统计TCP状态;`ps -aux`排序列出CPU和内存消耗大的进程;`find`加`tar`查找并压缩`.conf`文件。掌握这些命令提升运维效率。
52 1
|
7月前
|
运维 监控 Java
Spring Boot应用的性能监控与优化指南
Spring Boot应用的性能监控与优化指南
|
9月前
|
存储 监控 前端开发
【专栏】阿里云ARMS前端监控的引入方法,以提升应用质量和稳定性
【4月更文挑战第29天】本文介绍了阿里云ARMS前端监控的引入方法,以提升应用质量和稳定性。该工具通过实时收集和分析用户行为、性能数据,提供错误监测和实时告警。步骤包括注册阿里云账号,创建前端监控项目,获取并嵌入监控代码到页面中,部署并运行,最后查看监控数据。案例和经验分享强调了合理设置监控指标、与其他工具结合以及定期分析数据的重要性。注意保护用户隐私,正确管理监控代码,并解决可能出现的数据不准确和大量错误告警问题。
244 1