系统迭代:如何监控和保证系统稳定性?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

系统迭代:如何监控和保证系统稳定性?

sunny夏筱 2015-10-28 11:29:41 6224
随着互联网的发展,基本需求不断得到满足,系统的迭代频率也随之上升。那么,问题来了,频繁迭代的系统,稳定性如何呢?怎样监控系统进而保证其稳定性,是一个令人头痛的问题。显然,这关系到公司的稳步发展,不容忽视。通过使用专业的应用性能管理工具,监控并保证系统的稳定性,使公司业务正常运转,变得愈发重要。
OneAPM 的 Application Insight 是一款帮助开发者监控系统稳定性的利器。它从 Apdex 值和报警策略两个方面监控系统的运行情况。
1. Apdex 值
Apdex 是一个[0,1]范围内用户体验量化值。其中,「1」表示所有用户都满意;「0」表示所有用户都不满意。
计算公式:Apdex=( 满意样本 + 可容忍样本/2 )/ 样本总数
通过 Apdex 值来判断系统的稳定性。首先,在 OneAPM Application Insight 功能总览页面中有个 Apdex 动态图,如下图:
        
从图中可以看出,系统在早上 6 点 40 分时的 Apdex 值为 0,说明用户在访问网站时满意度为 0,也就是无法访问网站,系统很可能在这时出现了假死或者宕机现象。
从图中可以看出,在出现假死之前,系统 Apdex 值有波动。可以研究波动时段的其他性能指标,寻找产生这些现象的真正原因。
2. 报警策略
报警策略分两种:[1.性能报警;2.错误报警]
1. 性能报警
性能报警以用户设置的 Apdex 阀值为报警触发条件,如图:
      
从图中可以看到报警的规则分为:[1.警示阀值;2.警报阀值]两种。当满足「警示阀值」时,会提醒用户系统出现性能问题;当满足「警报阀值」值时,会通知用户系统性能已有严重问题,应立即查看原因,处理故障。
2. 错误报警
错误报警以用户设置的平均错误率为报警触发条件,如图:
      
从图中可以看到,错误报警也分为「警示阀值」和「警报阀值」两种。当满足「警示阀值」时,会提醒用户系统出现错误;当满足「警报阀值」时,会通知用户系统有严重故障问题,需要立即处理。
除了以上这些,我们还有[1.分配策略2.管理用户3.通知方式]供用户自定义配置
1. 分配策略
可以自定义分配需要监控的应用程序,如图:
        
2. 管理用户
管理需要通知的相关负责人,如图:
    
3. 通知方式
设置报警的的通知方式,如图:
      
如果在系统迭代时,您因为无法预知系统故障而头疼,那么赶紧注册一个 OneAPM 账号,下载安装一个 Application Insight 探针,相信一定会给您的工作带来惊喜和收获。
本文系 OneAPM 工程师编译整理。OneAPM 是应用性能管理领域的新兴领军企业,能帮助企业用户和开发者轻松实现:缓慢的程序代码和 SQL 语句的实时抓取。想阅读更多技术文章,请访问 OneAPM 官方博客。


SQL 监控 开发者 UED
分享到
取消 提交回答
全部回答(4)
  • apm
    2015-10-28 18:33:15
    Re系统迭代:如何监控和保证系统稳定性?
    0 0
  • sunny夏筱
    2015-10-28 18:12:30
    回2楼西秦的帖子

    -------------------------

    回4楼西秦的帖子
    在哪里?
    0 0
  • 西秦说云
    2015-10-28 17:40:26
    每天都发,真是够了!

    -------------------------

    回 3楼(sunny夏筱) 的帖子
    以后发云市场吧

    -------------------------

    0 0
  • falsefalse
    2015-10-28 17:05:11
    Re系统迭代:如何监控和保证系统稳定性?
    试了下 还不错 正在持续发现新功能之中
    0 0
添加回答
数据库
使用钉钉扫一扫加入圈子
+ 订阅

分享数据库前沿,解构实战干货,推动数据库技术变革

推荐文章
相似问题