《CloudOps云上自动化运维 白皮书2.0》—— 六、可靠性能力Reliabilty——5.工具推荐(上):https://developer.aliyun.com/article/1222466?groupCode=ecs
• 应用实时监控服务ARMS
应用实时监控服务(Application Real-Time Monitoring Service,简称ARMS)是一款应用性能管理产品,包含前端监控、应用监控和Prometheus监控三大子产品,涵盖了浏览器、小程序、APP、分布式应用和容器环境等性能管理,能帮助用户实现全栈式的性能监控和端到端的全链路追踪诊断。
。 实时洞察,即刻提升应用性能。前端、应用至底层机器,应用实时监控服务ARMS提供了完整的数据大盘监控,展示请求量、响应时间、FullGC次数、慢SQL和异常次数、应用间调用次数与耗时等重要的关键指标,时刻了解应用程序的运行状况,确保向用户提供优质的使用体验。
。 全面掌握Web端性能数据,提供优质体验。应用实时监控服务ARMS前端监控专注于Web端体验数据监控,从页面打开速度、页面稳定性和外部服务调用成功率这三个方面监测Web页面的健康度,帮助您降低页面加载时间、减少JS错误,有效提升用户体验。
。 Prometheus监控,云原生时代一站式体验。应用实时监控服务ARMS提供Prometheus全托管式云服务,无需安装运维,一键开启,开箱即用监控大盘。
• 链路追踪XTrace
链路追踪(Tracing Analysis)为分布式应用的开发者提供了完整的调用链路还原、调用请求量统计、链路拓扑、应用依赖分析等工具。能够帮助开发者快速分析和诊断分布式应用架构下的性能瓶颈,提高微服务时代下的开发诊断效率。
。 分布式调用链查询诊断:同时支持微服务程序HTTP、Dubbo、HSF等接口进行追踪与PaaS调用,如对数据库、NoSQL、MQ等调用进行追踪。
。 应用性能实时汇总:可以通过跟踪整个应用程序的用户请求,来实时汇总,组成应用程序的单个服务和资源。
。 分布式拓扑动态发现:可以收集您的所有分布式微服务应用和相关PaaS产品的分布式调用信息。
• 应用高可用服务AHAS
应用高可用服务(Application High Availability Service)专注于提高应用及业务的高可用能力,主要提供流量防护、故障演练、多活容灾、开关预案四大核心能力。用户通过各模块可以快速低成本地在营销活动场景、业务核心场景全面提升业务稳定性和韧性。
。 流量监控与防护:提供包括QPS、并发线程、响应时间(RT)、异常、CPU/load、网络流量等指标的秒级监控能力。同时,提供应用级别的流量控制、应用间的降级隔离、单机自适应过载保护、热点流量探测与防控、脉冲流量削峰填谷、慢方法/SQL的自动熔断、分布式流量控制等。
。 网关防护:支持Nginx/Ingress网关层流量控制以及Spring Cloud Gateway、Zuul等常用API gateway的流量防护,从流量入口处拦截骤增流量,防止下游服务被压垮。
。 开关预案:支持代码中配置项的动态管理,根据需求为某个应用开启或关闭部分功能,或设置某个性能指标的阈值。通常用于设置黑白名单、运行时动态调整日志级别、降级业务功能等场景。
。 混沌工程与故障演练:提供一站式架构分析、故障巡检、故障注入、系统稳态度量等功能,帮助用户增强分布式系统的容错性和可恢复性,帮助系统平稳上云。
。 多活容灾:支持分布在多个站点的系统同时对外提供服务,保障故障场景下的业务快速恢复。横向囊括容灾架构的上线、运维、演练、切流、升级到下线的全生命周期。纵向包含业务流量的完整路径,从流量接入,到服务化调用,异步化消息,再到最终数据落库
2) 阿里云与业界相关工具对比/对照表格