应用性能管理(APM, Application Performance Management)总结-阿里云开发者社区

开发者社区> 量子的我> 正文

应用性能管理(APM, Application Performance Management)总结

简介: 当下成熟的互联网公司都建立有从基础设施到应用程序的全方位监控系统,力求及时发现故障进行处理并为优化程序提供性能数据支持,降低整体运维成本。国内外商业的APM有Compuware、iMaster、博睿Bonree、听云、New Relic、云智慧、OneAPM、AppDyn、Amics等。
+关注继续查看

当下成熟的互联网公司都建立有从基础设施到应用程序的全方位监控系统,力求及时发现故障进行处理并为优化程序提供性能数据支持,降低整体运维成本。国内外商业的APM有Compuware、iMaster、博睿Bonree、听云、New Relic、云智慧、OneAPM、AppDyn、Amics等。 本文主要针对Java技术体系介绍APM的关键实现技术以及业界主流APM工具的功能特点。

一、APM核心功能

APM被形象的称为应用程序的私人医生,越来越收到青睐,比起通过日志方式记录关键数据显然要更加实用,APM主要包含如下核心功能:

  1. 应用系统存活检测
  2. 应用程序性能指标检测(CPU利用率、内存利用率等等。。。)
  3. 应用程序关键事件检测
  4. 检测数据持久化存储并能够多维度查询
  5. 服务调用跟踪
  6. 监控告警

二、关键技术

2.1 获取JVM性能数据

Java程序运行时性能指标可通过Java.lang.Runtime、java.lang.Management中的方法采集。除此之外,著名的Metrics类库也能够通过这些底层技术获取Java程序性能指标。Cpu利用率等基础数据的采集仅仅是性能监控的一部分,Metrics提供了更为丰富的五个基本度量类型,可在此基础上开发满足需求的监控指标。

  1. Gauges(度量)
  2. Counters(计数器)
  3. Histograms(直方图数据)
  4. Meters(TPS计算器)
  5. Timers(计时器)

参考文章:

  1. 只用五分钟为系统实现基于JMX的监控 https://my.oschina.net/zhongl/blog/29075
  2. 使用Metrics监控应用程序的性能 http://www.cnblogs.com/yangecnu/p/Using-Metrics-to-Profiling-WebService-Performance.html

2.2 服务调用追踪

大型系统中每次请求往往都由若干个独立的服务调用组成,一次从上游到下游的调用被称为一次Trace,为了监控程序性能,需要知道每个独立服务的执行时间以及网络通信开销时间,Google曾经发表过一个介绍其内部实现Dapper的论文,Twitter参照此论文实现了一个名为Zipkin的服务调用追中系统并已开源。

image
image

Trace系统设计的核心技术就是拦截每次服务请求,在请求中加入标识符,记录一次完整的Trace各阶段的执行时间。当然也可以侵入式的写监控代码主动向Trace Server发送执行时间。

image
image

2.3 时间序列

应用程序向APM发送的采集数据,通常都是格式,为了实现节约存储空间、计时查询,通常使用时间序列数据库存储采集数据。

参考文章:

  1. 时间序列数据库的秘密 http://blog.csdn.net/pkueecser/article/details/50610796

2.4 告警

当采集到应用程序的性能数据后,除了人为主动的在系统上查看之外,另一个主要的使用功能点就是,监控系统根据设定的报警规则主动报警。实现触发告警有多种方法,常见的方法有:周期性主动轮询采集到的性能数据,并且根据报警规则,进行报警处理;除此之外,通过流式计算方法也可以进行报警处理,这里推荐使用基于postgresql数据库的pipelinedb,通过sql的方式设定监控规则,当到达报警条件时,通过数据库触发器调用外部函数进行告警处理。

三、开源APM

3.1 ZipKin

ZipKin是Twitter开源的Trace工具,通过Java程序中引入客户端,可隐式拦截Http、Thrift等形式服务调用。通过Http、Kafka、Scribe等方式同步监控数据到服务端,ZipKin带有Web UI,但没有告警功能。

参考文章:

  1. 分布式跟踪系统:Zipkin的背景和设计 http://blog.csdn.net/manzhizhen/article/details/52811600

3.2 大众点评网 CAT

Cat是大众点评开源的功能完备的APM系统,支持JVM性能数据采集、服务Trace、告警等功能,但需要写监控代码。

参考文章:

  1. 大众点评网监控平台剖析http://www.infoq.com/cn/presentations/public-comments-monitoring-platform-analyse/

3.4 Prometheus

Prometheus从官方介绍来说,他是一个开源的系统监控和报警工具,最初由SoundCloud推出。自2012成立以来,许多公司和组织都采用了Prometheus,项目有一个非常活跃的开发者和用户社区。它现在是一个独立的开源项目,并独立于任何公司。Prometheus具有以下主要特性:

  1. 多维度数据模型(由键/值对确定的时间序列数据模型)。
  2. 具有一个灵活的查询语言来利用这些维度。
  3. 不依赖分布式存储;单个服务器节点工作。
  4. 时间序列的采集是通过HTTP pull的形式,解决很多push架构的问题。
  5. 通过中介网关支持短时间序列数据的收集。
  6. 监控目标是通过服务发现或静态配置。
  7. 多种数据展示面板支持,例如Grafana。

Prometheus主要缺点:

  1. 单机缺点,单机下存储量有限,根据你的监控量局限你的存储时间。
  2. 内存占用率大,prometheus集成了leveldb,一个能高效插入数据的数据库,在ssd盘下io占用比较高。同时可能会有大量数据堆积内存。但是这是可以配置的。

Prometheus既可以使用定时轮询应用程序Http接口获取性能数据,也可以使用嵌入到应用程序中Prometheus client主动收集数据推送给Prometheus Server。除了收集应用程序性能数据外,Prometheus还可以收集主机性能数据,真对不同性能指标Prometheus提供了不同的Exports,也可以自己开发Exports收集数据传递给Prometheus。Prometheus只支持性能采集告警,不支持服务Trace追中。

3.5 Hawkular

Hawkular是一个功能完备的APM系统,应用程序中嵌入Hawkular客户端,主动将采集数据通过Http或者Kafka传递给Hawkular。Hawkular支持JVM性能数据采集、服务Trace、告警等功能。其中JVM性能数据采集使用JMX,服务Trace使用Zipkin客户端。

3.6 Pinpoint

韩国开源的一个功能完备的APM系统,支持JVM性能数据采集、服务Trace、告警等功能。

3.7 Appdash

Appdash是sourcegraph开源的一款用Go实现的分布式系统跟踪工具套件,它同样是以google的 dapper为原型设计和实现的,目前用于sourcegraph平台的性能跟踪和监控。

3.7 Apache HTrace

Apache HTrace是Cloudera开源出来的一个分布式系统跟踪框架,支持HDFS和HBase等系统。该项目目前还在孵化阶段。

3.9 京东Hydra

京东开源的基于Dubbo的调用分布跟踪系统,类似ZipKin,功能不够完善。

3.11 Cicada

宜人贷开源的类似ZipKin分布式跟踪系统,功能不够完善。

3.12 Spring Boot Admin

可视化展示Spring Boot Metrics,监控数据不能持久化存储,没有Trace功能,没有监控告警功能,但可周期性采集metrics,发送给其他监控软件如slack进行告警处理,同时也可以实现监控数据存储。

3.13 综合评价

我们希望一个功能完善的APM系统具有JVM性能监控、服务调用追中、监控告警功能,大众点评Cat、PinPoint、Hawkular相对来讲功能更为完备,推荐使用。

附录 A 闭源APM

  1. Google Dapper
  2. 淘宝 鹰眼Tracing
  3. 新浪Watchman
  4. 美团 MTrace

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Java应用性能调优
性能诊断工具 性能诊断一种是针对已经确定有性能问题的系统和代码进行诊断,还有一种是对预上线系统提前性能测试,确定性能是否符合上线要求。
855 0
java B2B2C Springboot电子商务平台源码-统一日志管理ELK
什么是ELK?ELK是三个开源软件的缩写,分别表示:Elasticsearch , Logstash, Kibana , 它们都是开源软件。新增了一个FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也推荐此工具。
1022 0
Java基础-04.总结switch,for,while,do。while跳转语句
你需要的是什么,直接评论留言。 获取更多资源加微信公众号“Java帮帮” (是公众号,不是微信好友哦) 还有“Java帮帮”今日头条号,技术文章与新闻,每日更新,欢迎阅读 学习交流请加Java帮帮交流QQ群553841695 分享是一种美德,分享更快乐! 1:switch语句(掌握) (1)格式:switch(表达式) {case 值1:语句体1;b
1907 0
友盟+U-APM 移动应用性能体验报告 :APM越发受到关注,第三方监控工具覆盖已超四成
近日,国内领先的全域数据智能服务商——友盟+,发布了《友盟+U-APM 移动应用性能体验报告》。据悉,友盟+于去年将原移动分析U-App错误分析模块正式升级为U-APM应用性能监控平台,经过近一年的观察,通过DEM 视角分析移动应用端的性能表现发布这份报告,旨在帮助开发者清晰了解行业动态,精准定位自身产品位置。
1121 0
基于MaxCompute/Dataworks实现数据仓库管理与全链路数据体系
前言   就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据,成为了行业的数据研发专家。当然还有很多小伙伴,热衷于工具系统开发,成为了数据技术专家。
2044 0
Java性能优化之编程技巧总结
1、慎用异常 在Java软件开发中,经常使用 try-catch 进行错误捕获,但是,try-catch 语句对系统性能而言是非常糟糕的。
859 0
App性能测试揭秘(Android篇)
性能测试在移动测试领域一直是一个大难题,它最直观的表现是用户在前台使用 App 时的主观体验,然而决定体验优劣的背后,涉及到了许许多多的技术变迁。阅读此文,带你揭秘App性能测试。
2004 0
页面性能的基础因素 - 《Designing for Performance》
页面性能的基础因素 最近读这本小书Designing for Performance,突然想到之前一篇网络性能评价只写了一半,在这里也里也算一个做个补充。
977 0
+关注
1
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载