开发者社区 问答 正文

美团 crash 监控分析系统优化之路:crash 率从千分位到万分位

美团点评前端高级技术专家 刘敬威在QCon上做了主题为《美团 crash 监控分析系统优化之路》的演讲,就美团Crash工作背景及如何从多方面推动Crash率降低等进行了深入的分享。

https://yq.aliyun.com/download/595?spm=a2c4e.11154804.0.0.539d6a796Xu99r

展开
收起
福利达人 2018-06-17 17:36:00 1463 分享 版权
阿里云 AI 助理回答

刘敬威在QCon上的分享《美团 crash 监控分析系统优化之路》是一个非常有价值的话题,尤其对于那些关注应用稳定性、前端开发和运维的人来说。虽然我无法直接提供该演讲的下载链接内容评估,但基于阿里云的产品和服务,我可以为你概述如何利用阿里云的技术栈来实现类似美团这样的Crash监控与分析系统的优化。

  1. ARMS(应用实时监控服务): 阿里云的应用实时监控服务(Application Real-Time Monitoring Service, ARMS)可以帮助你实现对Web应用、小程序、移动App等的性能监控和异常检测。它能自动收集JavaScript错误、Crash日志,并进行智能分析,帮助快速定位问题。你可以设置告警规则,一旦发现Crash率上升,立即收到通知。

  2. Logtail与SLS(日志服务): 通过部署Logtail采集器,可以高效地收集服务器、应用的日志数据,然后将这些数据传输到日志服务(Log Service, SLS)。在SLS中,你可以设置复杂的查询语句,对Crash相关的日志进行分析,甚至构建Dashboards来直观展示Crash趋势和分布,为优化工作提供数据支持。

  3. Prometheus与Grafana: 虽然这是开源工具,但它们可以与阿里云环境很好地集成,用于指标监控和可视化。你可以用Prometheus来抓取和存储各类性能指标,再通过Grafana创建丰富的仪表板,包括Crash率的变化图表,便于团队成员实时查看应用健康状况。

  4. 云原生服务: 如果你的应用架构是云原生的,可以利用Kubernetes(ACK)、服务网格(ASM)等技术,结合阿里云的服务网格监控功能,更细粒度地监控和管理微服务间的调用情况,及时发现并解决可能导致Crash的链路问题。

  5. 故障注入与混沌工程: 利用阿里云的混沌工程平台(如AHAS Chaos)进行主动的故障注入测试,模拟真实世界中的各种故障场景,提前发现系统的薄弱点,增强系统的韧性,从而间接降低Crash率。

  6. 数据分析与机器学习: 对于大量Crash数据,可以通过阿里云MaxCompute进行大数据处理和分析,或者使用PAI(Platform of Artificial Intelligence)进行机器学习模型训练,预测Crash发生的可能性,采取预防措施。

综上所述,阿里云提供了从基础监控、日志分析、性能管理到高级故障演练和智能化预测的一整套解决方案,能够有效支持像美团这样大规模应用的Crash监控与优化工作。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答
问答分类:
问答地址: