记一次APM产品开发经历

本文涉及的产品
应用实时监控服务-用户体验监控,每月100OCU免费额度
应用实时监控服务-应用监控,每月50GB免费额度
简介: 记一次APM产品开发经历

25d5bea991324586bc069c7ad5f72ec5~tplv-k3u1fbpfcp-zoom-crop-mark_3024_3024_3024_1702.webp.jpg

写在前面的话


虽然本文篇幅较短(不足两千字),但希望对你有所帮助,如果对你有用,请点赞支持一把,也是给予我写作的动力。

自我介绍


首先介绍一下自己:09年考了二本英语专业,10年全国翻译三级笔译证书,11年选修了网页制作,12年考了专业八级,13年毕业后出国,在海外做商务翻译一年,14年底回国,15年开始接触前端,开始了前端开发工作(感谢老东家给了平台和机会),6年来有幸接触了很多前后端的大牛,18年以来一直在架构部门、技术中台工作,最多时带了20几名前端,19年裸考北京航空航天大学的数据信息与工程专业,21年硕士毕业,这篇文章是我在架构部门的一次产品开发经历,其中产品、前端、设计都是我本人。


本文关键词

产品设计-服务拓扑关系-apm-基础设施-paas-产品设计-调用关系-性能

本文相关问题


系统性能瓶颈在哪里,输入一个url到底经历了什么,如何做一款有情怀的系统可视化大盘,有温度的产品的锻造历程

前端应用+后端应用+中间件+数据库是如何互相交互的,互相访问的次数、耗时和顺序都是什么情况?是在100qps,A--b--C,还是300ms?

正文

曾经设计过一个查看服务、应用、中间件、数据库之间调用关系的数据展示图。

0160b78b483d46f5940d2c2da52d1a70~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.jpg


排查问题时经验丰富的工程师来说,以上的图表太有用了,一个应用的bug背后可能是网络抖动、并发、缓存失效、cpu甚至是内存的问题。


然而疑难问题排查并非日常所需,对于架构师或者系统负责人来说,这样一张一张图来看,太繁琐了。而且只能看某一时间段内的调用信息,并不能完整的体现出系统的健康程度。


一个idea在心中慢慢酝酿,是不是可以研发一个大盘?

跟优秀的人(各种社区分享)学习,跟业界最佳实践(京东阿里蚂蚁和优秀的社区)学习,再加上个人的积累和沉淀。

最初大盘是这个样子的

fd99db66a17d4d0ebbd8132b5278adb8~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0 (1).png

大盘展示内容

  • 1.核心应用
  • 2.核心数据库
  • 3.核心中间件


核心数据:

  • qps
  • response time
  • error数量

看上去直观很多了,可产品或者业务场景还是不明显。

在北航读硕士期间,导师讲过一种鱼骨图分析法(主要用于根因分析),在项目管理中也使用鱼骨图分析项目的整体状况。


于是有了下图最初的设想。

d1d2c6fb13de46ad924aff4168551598~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.png

看草图可能不够直观,现在上大招,实际网页效果更直观

908d464c392540528cf0d14c3333bd73~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.png

整体流程


整体来看平台展示了


  • 访问的先后顺序
  • 访问的流量情况
  • 访问的健康状况


三种模式


其中右上角的三个tab切换用于引入三个概念:


  • 流量模式
  • 告警模式
  • 业务模式


动态展示


图上的每个节点都有三种状态


  • 灰色未访问,无告警;
  • 绿色健康;
  • 红色不健康


然而你以为这就完了?

在现有基础上我针对第二版提出了优化方案


未来规划


  • 自动刷新机制
  • 连接基础服务的机制


写在最后

前端开发路漫漫其修远兮,产品迭代无休无止,希望作为互联网人多做简单的架构,做有价值的产品,做有温度有情怀的设计


我把产品第一版图片放在最后,供给有需要的小伙伴


相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
目录
相关文章
|
监控
阿里云应用性能管理(APM)产品-应用实时监控服务(ARMS)技术解密 资料下载
直播大纲 1. 应用性能管理(APM)背景介绍 2. 分布式链路追踪的现状与使用场景 3. ARMS分布式链路追踪的技术实现 4. 最佳实践 (1) 全息排查+场景链路(2) 前端监控与应用监控融合(3) ARMS与K8S的融合与实践 专家介绍 阳其凯(逸陵),阿里巴巴高级开发工程师,2016年加入阿里巴巴Eageleeye团队,多年实时计算平台与APM产品开发经验,目前主要负责云产品业务实时监控服务(ARMS)与链路追踪(Tracing Analysis)的研发工作。
13182 0
|
2月前
|
运维 监控 安全
应用性能管理(APM)软件
【10月更文挑战第18天】
112 5
|
5月前
|
监控 关系型数据库 MySQL
Nightingale——滴滴夜莺部署【一】
Nightingale——滴滴夜莺部署【一】
140 0
Nightingale——滴滴夜莺部署【一】
|
8月前
|
存储 监控 前端开发
【Java应用服务体系】「序章入门」全方位盘点和总结调优技术专题指南
【Java应用服务体系】「序章入门」全方位盘点和总结调优技术专题指南
96 0
|
Prometheus 监控 Cloud Native
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、基于OPLG从0到1构建统一可观测平台实践——场景实践5:ARMS提供的用户体验监控
《2021 阿里云可观测技术峰会演讲实录合辑(下)》——一、基于OPLG从0到1构建统一可观测平台实践——场景实践5:ARMS提供的用户体验监控
432 0
|
编解码 人工智能 运维
《2023云原生实战案例集》——04 互联网——核桃编程 基于ARMS构建可观测体系,全方位提升用户体验
《2023云原生实战案例集》——04 互联网——核桃编程 基于ARMS构建可观测体系,全方位提升用户体验
|
运维 Prometheus 监控
【滴滴开源运维监控系统】夜莺V5版本部署实践
【滴滴开源运维监控系统】夜莺V5版本部署实践
1132 0
【滴滴开源运维监控系统】夜莺V5版本部署实践
|
人工智能 Prometheus 运维
可观测公司新秀:OpsCruise介绍
可观测公司新秀:OpsCruise介绍
231 0
|
移动开发 缓存 运维
技术实践第四期|解读移动开发者日常-性能监控平台应用
应用性能监控平台是用来帮助客户提升应用性能质量和稳定性的重要环节,本人作为一名移动端开发者有着丰富的使用和运维经验,希望通过本文分享过往的心得和使用经验,让我参与开发的U-APM这款产品中,作为借鉴可以在中长期规划中帮助更多的开发者。
技术实践第四期|解读移动开发者日常-性能监控平台应用
|
数据采集 负载均衡 监控
陪玩系统源码的可观测体系,搭建注意事项有哪些?
陪玩系统源码的可观测体系,搭建注意事项有哪些?