引言
在电商平台中,尤其是在大促期间(如双十一),我们的系统往往会面临极高的并发压力,可能会导致系统性能下降,出现响应延迟甚至宕机的情况。我们运维人员就通常需要对系统进行性能监控和故障诊断。为了能确保系统的稳定性和高效运行,选择一款趁手的工具就显得尤为重要了,一次偶然的机会我发现了阿里云操作系统控制台,通过阿里云操作系统控制台的进程热点追踪和热点对比分析功能,我们平台的运维团队就能够实时监控应用的每个进程、资源使用情况以及不同时间段的性能差异,快速识别性能瓶颈。
产品介绍
可能大部分人没有使用过相关的操作系统控制台,并不知道其功能所在具体都有什么,这里我结合官方的解释进行简略介绍,其实就是提供了操作系统相关的管理功能,包括运维管理、操作系统智能助手、扩展组件管理、订阅等功能,支持通过API、SDK、CLI等管理方式。致力于提供卓越的操作系统能力,提升操作系统的使用效率,并为用户带来全新的操作系统体验。
同时这款控制台包含了许多功能:
- 系统概览、系统诊断、系统观测、系统管理、组件管理、订阅管理、OS Copilot
每一个类别里面还有一些小类别,感兴趣的可以访问官方文档
使用实例
我们进入操作系统控制台–登录
接着点击创建角色
之后我们就来到了主页面,但是还没有主机,接下来按照官方的提示,我们需要RAM用户授权
这是RAM控制台https://ram.console.aliyun.com/overview,进去即可
点击用户后,我们创建用户就行,之后我们要根据官方示例,添加两个授权
做到这里,我们要有一款云服务器ECS,没有的小伙伴可以点击下方链接
https://free.aliyun.com/?spm=a2c6h.29944566.J_9175035460.9.5d1d79fdymNN12
操作系统选择Alibaba Cloud Linux 3,创建完毕后,我们要进行组件的安装,我们安装SysOM这款组件
安装完毕,我们就可以来到系统概览界面了
我们可以从中看到诸如CPU、内存、网络、磁盘等信息的利用率等信息方便我们进行查看
上图点击节点健康,可以查看当前节点的健康情况
系统诊断
操作系统控制台提供了系统诊断功能,可以能够帮助使用者实时分析系统的资源使用情况(比如内存、CPU、磁盘、网络等),并且会生成详细的诊断报告。以下是一个实际操作案例的应用分析,展示如何使用该功能进行故障排查。
首先我们需要选择诊断类型、诊断项、实例ID,选择完毕进行诊断,生成的诊断报告如下,清楚的看到内存,缓存等信息的使用情况
在生成的诊断报告中,我们发现内存的使用情况显示已使用内存接近80%,而空闲内存仅占20%。这就很可能意味着实例的内存资源不足,或者某些应用程序存在内存泄漏的问题。此时,我们就要检查正在运行的应用程序,查看是否有内存泄漏或者不必要的内存占用、如果当前实例内存不足,则就需要考虑升级实例规格,以增加内存资源了。
此外我们可利用其强大的性能监控工具,帮助我们迅速实现对系统运行状态的深度分析与优化。
对于系统观测,分别有两个核心功能,进程热点追踪、热点对比分析,其功能如下:
进程热点追踪
- 用于单个实例在特定时刻的热点分析。支持生成进程热点时序图、热点火焰图及调用图谱(进程热点追踪)。
我们通过进程热点追踪功能,可快速定位到数据库查询或某些Web服务的资源消耗异常。我们发现在高负载时期,Web服务器的CPU使用率达到了95%以上,尤其是在处理支付请求的时候、此外根据热点火焰图显示,某些数据库查询函数消耗的CPU资源过多,在高并发访问时,就导致了CPU负载过高。
如果某个实例发生了系统崩溃或性能异常,进程热点追踪可以帮助我们回溯到故障发生前后的关键时刻。通过生成调用图谱,能够查看程序的执行路径,定位到具体的代码位置或资源请求瓶颈。
建议当故障发生时,利用进程热点追踪的时序图和调用图谱对照发生时间点进行详细分析,以便快速找出问题根源,减少故障恢复时间。
热点对比分析
- 用于单个实例在不同时刻、不同实例在同一或不同时刻进行热点对比分析。支持生成进程热点时序图、热点火焰图及调用图谱(热点对比分析)。
热点对比分析功能支持对比单个实例在不同时刻的性能数据,或者不同实例在同一时刻的性能数据。
通过此功能可以帮助我们迅速识别出系统在不同时间或不同环境下的性能差异,找出性能波动的根本原因。当某在线电商平台在全球范围内部署了多个实例,用户在不同地区访问平台时,部分区域的响应时间就会可能较慢。此时我们的运维团队就可以通过热点对比分析来调查这一问题的根源,从而更加准确的解决问题。
此外建议定期对热点数据进行追踪和分析,通过数据积累,识别长期趋势,可提前发现系统潜在的性能问题,优化系统架构和资源分配。
总结
通过进程热点追踪、热点对比分析功能,阿里云操作系统控制台为我们运维人员和广大开发者朋友们提供了强大的性能监控工具。每个功能在不同的场景下都有显著的作用:进程热点追踪帮助我们快速识别单个实例的性能瓶颈,优化系统资源使用,热点对比分析能够对比不同实例、不同时间段的性能差异,帮助发现系统不稳定的根源。
通过这些工具,大家就可以在不同层面上优化系统性能,可以提升整体运维效率,确保系统的高效稳定运行。