阿里云应用监控(ARMS)过程全解析:我们在乎用户每一秒的体验

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
性能测试 PTS,5000VUM额度
云原生网关 MSE Higress,422元/月
简介: 在互联网高速发展的时代,应用成为连接企业与用户的载体,网络购物,实时交易,游戏娱乐,办公邮件等各种各样的使用场景中,网络响应无延迟,用户访问无槽点成为企业应用能否在激烈的市场竞争中脱颖而出的重要影响因素。

在互联网高速发展的时代,应用成为连接企业与用户的载体,网络购物、实时交易、游戏娱乐、办公邮件等各种各样的使用场景中,网络响应无延迟,用户访问无槽点成为企业应用能否在激烈的市场竞争中脱颖而出的重要影响因素。

体验为王时代,应用性能监控盲点成为企业面临的核心问题

据相关研究表明:当页面加载时间从 1 秒到 3 秒,跳出的机会增加了30%左右。1s到5s的机会增加到90%,如果你的网站需要10s的加载,跳出的机会将会超过120%。所以,在这个“用户体验为王”的时代,应用性能管理盲点已经成为企业面临的核心问题之一。

随着现代应用系统变得愈发复杂,越来越多的企业开始将服务往公有云迁移,对于云上应用性能监控的需求激增,基于此,阿里云推出全栈式性能监控服务ARMS,为客户提供涵盖服务层、应用层、用户体验层、业务交易层的性能管理监控产品,价格相较市场而言,不到10%,极具诱惑力。

这样一款极具价格竞争力的产品,性能上是否也有优于市场的表现呢?结合实例,我们进行使用过程全解析,真实展示这款产品的使用体验。

步骤一:多渠道实时报警,随时掌握网站访问情况

“Ding!网站无法访问,请速查!“开发人员接到ARMS系统push、短信、邮件等全方位报警信息,得知企业门户网站无法访问,立即调出ARMS监控系统开始排查任务。

样本分布图.png | left | 827x484

图1:样本分布图

从样本分布图来看,用户在访问站点的时候,在最近的一段时间内有245个用户访问超时,响应时间在5-5.5s 之间。对于门户网站而言,5s以上的响应时长意味着用户流失,对于网站营收来说影响巨大,开发人员必须迅速找出问题点。

步骤二:网站响应超时,查看API接口成功率

接口成功率下降.png | left | 827x482

                                 

图2:API请求页

 用户访问超时,可能的问题在于前端页面加载时间过长,或者后端服务层出现问题。从 “API 请求”页面可以看出,这段时间内,API请求成功率有大幅下降,所以基本判断是后端出现问题导致用户访问超时。

步骤三:无需修改应用代码,快速定位接口问题

lALPBbCc1agD8bbNA9bNBo0_1677_982.png | left | 827x484

                                 

图3:后端架构图

应用可以通过挂载javaagent的方式接入, 不需要任何代码改动。对代码是0侵入的,只需要在启动参数中 -javaagent 挂载一个应用监控的agent,从应用监控架构总览中可以看出有一条红色标注的线条,意味着主要问题源于此,红色的线表明:问题出现在 Dubbo 应用 item-center中。

步骤四:接口拓扑图概览,清晰定位调用异常

lALPBbCc1agCd5vNA9XNBo8_1679_981.png | left | 827x483

                               

图4:item-center应用接口图

这时,开发人员将视角切换到 item-center 应用,并定位是哪个接口出现问题,从item-center 的接口拓扑图可以具体定位到:该接口调用47.104.139.155:8081出现异常。对于应用负责人而言,已经可以定位到是应用的哪个依赖出现问题。

步骤五:异常故障详情图,快速知晓故障类型

lALPBbCc1agCd6_NA9TNBpA_1680_980.png | left | 827x482

                    

图5:异常故障图

异常页面中可以看出:存在两个异常,“Read time Out“的标注揭示了故障类型,主要是由于网络外部调用超时导致。

lALPBbCc1aviC0DNA9TNBo8_1679_980.png | left | 827x483

                                 

图6:traceID详情图

步骤六:traceID异常,追踪代码级别情况

从跟踪的详情图来看,该接口有很多的调用 traceID并且有部分的 traceID 有异常,耗时在2347ms。这里可将问题对应到前端访问时延问题上,用户访问时间在5-5.5s 之间。打开一个 异常traceID,查看这个超时在代码级别系统情况。

lALPBbCc1aviDVbNA9TNBo8_1679_980.png | left | 827x483

                            

图7:代码级别耗时详情图

步骤七:代码级别详情图,清晰了解入参及异常

再进入代码级别的耗时详情图,可以清晰看到具体哪一步消耗了多少的时长,而且还可以看到方法的入参及异常。

lALPBbCc1agCd6nNA9TNBpA_1680_980.png | left | 827x482

                                   

图8:SQL解析图

步骤八: SQL详情页,排查数据库运行情况

最后再次确认数据库是否与该次故障存在关联,打开应用监控SQL 详情页,在数据库页面中,可以看出这次故障与数据库没有关系,数据库运行正常。

通过一系列步骤的问题排查与追踪,开发人员全程只需耗时1-2min即可定位页面性能出现问题的根本原因,快速采取措施恢复应用。

从使用全过程来看,ARMS能够帮助企业进行关键业务应用进行监测、优化,快速提高应用的可靠性和质量,在大幅降低IT成本的同时,为用户带来良好的访问体验,帮助企业赢得用户,赢得市场。

相关文章
|
12天前
|
弹性计算 缓存 应用服务中间件
阿里云服务器2核2G99元和2核4G199元实例规格性能及适用场景解析
2024年阿里云推出了两款云服务器,2核2G3M带宽40G ESSD Entry盘价格只要99元1年,2核4G5M带宽80G ESSD Entry盘价格只要199元1年,这两款云服务器的活动截止日期为2026年3月31日,活动期间新购、续费同价。那么这两款云服务器怎么样呢?可以用来做什么?本文将对这两款云服务器进行深度解析,包括配置介绍、实例规格、使用场景以及购买建议,以供选择参考。
阿里云服务器2核2G99元和2核4G199元实例规格性能及适用场景解析
|
22天前
|
算法 物联网 数据库
阿里云 OpenSearch RAG 应用实践
本文介绍了阿里云OpenSearch在过去一年中在RAG方面的应用和探索。
542 2
阿里云 OpenSearch RAG 应用实践
|
28天前
|
边缘计算 Cloud Native 数据管理
【阿里云云原生专栏】云原生背景下的AIoT布局:阿里云Link平台解析
【5月更文挑战第29天】阿里云Link平台,作为阿里云在AIoT领域的核心战略,借助云原生技术,为开发者打造一站式物联网服务平台。平台支持多协议设备接入与标准化管理,提供高效数据存储、分析及可视化,集成边缘计算实现低延时智能分析。通过实例代码展示,平台简化设备接入,助力智能家居等领域的创新应用,赋能开发者构建智能生态系统。
124 3
|
30天前
|
弹性计算 运维 Java
最佳实践:阿里云倚天ECS在千寻位置时空智能服务的规模化应用
阿里云、平头哥及安谋科技联合举办的飞天技术沙龙探讨了倚天Arm架构在业务创新中的应用。活动中,千寻位置运维专家分享了将核心业务迁移到倚天处理器ECS实例的成功案例,强调了倚天处理器的高能效比和降本增效优势。迁移过程涉及操作系统、CICD系统和监控系统的适配,以及业务系统的性能测试。目前,千寻已迁移了上千台ECS实例到倚天处理器,实现了成本和效率的显著提升。未来计划继续扩展倚天处理器在核心业务和K8S中的应用。
|
2天前
|
存储 弹性计算 安全
阿里云服务器怎么样?云服务器ECS产品优势、应用场景、价格解析及常见问题参考
阿里云服务器ECS(Elastic Compute Service)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。把物理服务器比作买的房子,云服务器ECS,就是租赁的房子,阿里云云服务商就是管家。云服务商负责搭建机房、提供配套服务和维护,用户只需要付租金,即可“拎包入住”,无需自建机房、采购和配置硬件设施。如果不再需要云服务器,可随时“退租”(释放资源),节省成本。本文为大家解析云服务器ECS产品优势、应用场景和最新价格及常见问题。
阿里云服务器怎么样?云服务器ECS产品优势、应用场景、价格解析及常见问题参考
|
15天前
|
存储 机器学习/深度学习 编解码
深度解析阿里云服务器计算型c7与计算型c8y实例区别与选择参考
在阿里云提供的众多计算型云服务器实例规格中,计算型c7和计算型c8y实例是两款备受关注的云服务器规格。主要适用于网站应用、批量计算、视频编码等各种类型和规模的企业级应用,对于初次接触阿里云服务器的新手用户来说,可能并不是很清楚他们之间的区别,因此可能不知道怎么选择。本文将从实例的架构、处理器、存储与网络能力、使用场景、指标数据、收费标准以及实时活动价格等多个维度,对计算型c7和计算型c8y实例进行深度解析,以供参考和选择。
深度解析阿里云服务器计算型c7与计算型c8y实例区别与选择参考
|
28天前
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56438 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
5天前
|
存储 弹性计算 安全
构建高效企业应用架构:阿里云产品组合实践深度解析
该方案展现了阿里云产品组合的强大能力和灵活性,不仅满足了当前业务需求,也为未来的扩展打下了坚实的基础。希望本文的分享能为读者在设计自己的IT解决方案时提供一定的参考和启发。
68 1
|
13天前
|
弹性计算 运维 监控
阿里云运维第一步(监控):开箱即用的监控
监控运维是一个体系化的工作,完善这个体系非一日之功。但是我们的业务不可一日无监控“裸奔”,在阿里云怎么样快速低成本的建立第一道资源监控的护城河?开箱即用的云监控,将会是你进入阿里云的第一个可靠的小伙伴。
|
19天前
|
运维 监控 搜索推荐
客户案例 | 阿里云向量检索 Milvus 版在识货电商检索场景的应用与实践
本文分享了阿里云向量检索 Milvus 版在识货电商检索场景的应用与实践。阿里云的 Milvus 服务以其性能稳定和功能多样化的向量检索能力,为识货团队在电商领域的向量检索场景中搭建业务系统提供了强有力的支持。

推荐镜像

更多