阿里云应用监控(ARMS)过程全解析:我们在乎用户每一秒的体验

本文涉及的产品
性能测试 PTS,5000VUM额度
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 在互联网高速发展的时代,应用成为连接企业与用户的载体,网络购物,实时交易,游戏娱乐,办公邮件等各种各样的使用场景中,网络响应无延迟,用户访问无槽点成为企业应用能否在激烈的市场竞争中脱颖而出的重要影响因素。

在互联网高速发展的时代,应用成为连接企业与用户的载体,网络购物、实时交易、游戏娱乐、办公邮件等各种各样的使用场景中,网络响应无延迟,用户访问无槽点成为企业应用能否在激烈的市场竞争中脱颖而出的重要影响因素。

体验为王时代,应用性能监控盲点成为企业面临的核心问题

据相关研究表明:当页面加载时间从 1 秒到 3 秒,跳出的机会增加了30%左右。1s到5s的机会增加到90%,如果你的网站需要10s的加载,跳出的机会将会超过120%。所以,在这个“用户体验为王”的时代,应用性能管理盲点已经成为企业面临的核心问题之一。

随着现代应用系统变得愈发复杂,越来越多的企业开始将服务往公有云迁移,对于云上应用性能监控的需求激增,基于此,阿里云推出全栈式性能监控服务ARMS,为客户提供涵盖服务层、应用层、用户体验层、业务交易层的性能管理监控产品,价格相较市场而言,不到10%,极具诱惑力。

这样一款极具价格竞争力的产品,性能上是否也有优于市场的表现呢?结合实例,我们进行使用过程全解析,真实展示这款产品的使用体验。

步骤一:多渠道实时报警,随时掌握网站访问情况

“Ding!网站无法访问,请速查!“开发人员接到ARMS系统push、短信、邮件等全方位报警信息,得知企业门户网站无法访问,立即调出ARMS监控系统开始排查任务。

样本分布图.png | left | 827x484

图1:样本分布图

从样本分布图来看,用户在访问站点的时候,在最近的一段时间内有245个用户访问超时,响应时间在5-5.5s 之间。对于门户网站而言,5s以上的响应时长意味着用户流失,对于网站营收来说影响巨大,开发人员必须迅速找出问题点。

步骤二:网站响应超时,查看API接口成功率

接口成功率下降.png | left | 827x482

                                 

图2:API请求页

 用户访问超时,可能的问题在于前端页面加载时间过长,或者后端服务层出现问题。从 “API 请求”页面可以看出,这段时间内,API请求成功率有大幅下降,所以基本判断是后端出现问题导致用户访问超时。

步骤三:无需修改应用代码,快速定位接口问题

lALPBbCc1agD8bbNA9bNBo0_1677_982.png | left | 827x484

                                 

图3:后端架构图

应用可以通过挂载javaagent的方式接入, 不需要任何代码改动。对代码是0侵入的,只需要在启动参数中 -javaagent 挂载一个应用监控的agent,从应用监控架构总览中可以看出有一条红色标注的线条,意味着主要问题源于此,红色的线表明:问题出现在 Dubbo 应用 item-center中。

步骤四:接口拓扑图概览,清晰定位调用异常

lALPBbCc1agCd5vNA9XNBo8_1679_981.png | left | 827x483

                               

图4:item-center应用接口图

这时,开发人员将视角切换到 item-center 应用,并定位是哪个接口出现问题,从item-center 的接口拓扑图可以具体定位到:该接口调用47.104.139.155:8081出现异常。对于应用负责人而言,已经可以定位到是应用的哪个依赖出现问题。

步骤五:异常故障详情图,快速知晓故障类型

lALPBbCc1agCd6_NA9TNBpA_1680_980.png | left | 827x482

                    

图5:异常故障图

异常页面中可以看出:存在两个异常,“Read time Out“的标注揭示了故障类型,主要是由于网络外部调用超时导致。

lALPBbCc1aviC0DNA9TNBo8_1679_980.png | left | 827x483

                                 

图6:traceID详情图

步骤六:traceID异常,追踪代码级别情况

从跟踪的详情图来看,该接口有很多的调用 traceID并且有部分的 traceID 有异常,耗时在2347ms。这里可将问题对应到前端访问时延问题上,用户访问时间在5-5.5s 之间。打开一个 异常traceID,查看这个超时在代码级别系统情况。

lALPBbCc1aviDVbNA9TNBo8_1679_980.png | left | 827x483

                            

图7:代码级别耗时详情图

步骤七:代码级别详情图,清晰了解入参及异常

再进入代码级别的耗时详情图,可以清晰看到具体哪一步消耗了多少的时长,而且还可以看到方法的入参及异常。

lALPBbCc1agCd6nNA9TNBpA_1680_980.png | left | 827x482

                                   

图8:SQL解析图

步骤八: SQL详情页,排查数据库运行情况

最后再次确认数据库是否与该次故障存在关联,打开应用监控SQL 详情页,在数据库页面中,可以看出这次故障与数据库没有关系,数据库运行正常。

通过一系列步骤的问题排查与追踪,开发人员全程只需耗时1-2min即可定位页面性能出现问题的根本原因,快速采取措施恢复应用。

从使用全过程来看,ARMS能够帮助企业进行关键业务应用进行监测、优化,快速提高应用的可靠性和质量,在大幅降低IT成本的同时,为用户带来良好的访问体验,帮助企业赢得用户,赢得市场。

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
1月前
|
移动开发 监控 Android开发
Android & iOS 使用 ARMS 用户体验监控(RUM)的最佳实践
本文主要介绍了 ARMS 用户体验监控的基本功能特性,并介绍了在几种常见场景下的最佳实践。
|
6天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU价格收费标准_GPU优势和使用说明
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等场景。作为亚太领先的云服务商,阿里云GPU云服务器具备高灵活性、易用性、容灾备份、安全性和成本效益,支持多种实例规格,满足不同业务需求。
|
20天前
|
存储 弹性计算 NoSQL
"从入门到实践,全方位解析云服务器ECS的秘密——手把手教你轻松驾驭阿里云的强大计算力!"
【10月更文挑战第23天】云服务器ECS(Elastic Compute Service)是阿里云提供的基础云计算服务,允许用户在云端租用和管理虚拟服务器。ECS具有弹性伸缩、按需付费、简单易用等特点,适用于网站托管、数据库部署、大数据分析等多种场景。本文介绍ECS的基本概念、使用场景及快速上手指南。
61 3
|
1月前
|
域名解析 网络协议
非阿里云注册域名如何在云解析DNS设置解析?
非阿里云注册域名如何在云解析DNS设置解析?
|
1月前
|
弹性计算 网络协议 Ubuntu
如何在阿里云国际版Linux云服务器中自定义配置DNS
如何在阿里云国际版Linux云服务器中自定义配置DNS
|
1月前
|
弹性计算 负载均衡 网络协议
内部名称解析设置阿里云私有 DNS 区域,针对于阿里云国际版经验教程
内部名称解析设置阿里云私有 DNS 区域,针对于阿里云国际版经验教程
|
24天前
|
运维 Cloud Native 持续交付
云原生技术解析:从IO出发,以阿里云原生为例
【10月更文挑战第24天】随着互联网技术的不断发展,传统的单体应用架构逐渐暴露出扩展性差、迭代速度慢等问题。为了应对这些挑战,云原生技术应运而生。云原生是一种利用云计算的优势,以更灵活、可扩展和可靠的方式构建和部署应用程序的方法。它强调以容器、微服务、自动化和持续交付为核心,旨在提高开发效率、增强系统的灵活性和可维护性。阿里云作为国内领先的云服务商,在云原生领域有着深厚的积累和实践。
52 0
|
1月前
|
监控 网络协议 数据挖掘
阿里云国际云解析DNS如何开启/关闭流量分析?
阿里云国际云解析DNS如何开启/关闭流量分析?
|
2月前
|
文字识别 算法 API
阿里云文档解析(大模型版)优化
阿里云文档解析(大模型版
|
1月前
|
人工智能 分布式计算 数据处理
阿里云与传智教育联合直播:深度解析MaxFrame,探索量化交易新纪元
2024年10月15日,阿里云与传智教育联合举办了一场主题为“解密新一代AI+Python分布式计算框架MaxFrame”的直播,对阿里云最新推出的分布式计算框架MaxFrame进行了详细的介绍。
200 0

推荐镜像

更多