阿里云-进程监控与告警

简介: 1.背景 我在阿里云ECS上部署了个人网站,用到了mysql与tomcat,所以想要分钟级监控这两个进程是否alive。 2.安装监控agent 安装说明:https://help.aliyun.com/knowledge_detail/38859.html 进入阿里云控制台,产品与服务|监控与管理|云监控|云服务监控|云服务器ECS|单击实例ID,即可见到图2-1.

1.背景

我在阿里云ECS上部署了个人网站,用到了mysql与tomcat,所以想要分钟级监控这两个进程是否alive。

2.安装监控agent

进入阿里云控制台, 产品与服务|监控与管理|云监控|云服务监控|云服务器ECS|单击实例ID,即可见到图2-1.

图2-1
如果图表有缺失,按照提示安装监控agent。它会定时收集系统信息并上报给阿里云后台。

3.添加进程监控

见图3-1。


图3-1
完整进程名称通过 ps aux得到,包含进程名称及启动参数。
注意:这里只需要填写 关键字即可,如果 完整进程名称. contains(关键字) ,那么此关键字下的进程计数就+1。
添加后等待3分钟即可有数据显示。见图3-2.

图3-2

4设置告警规则

见图4-1.

图4-1.

5.告警效果

手机阿里云会提示有告警,见图5-1。且 会收到短信,不用担心错过。


图5-1
目录
相关文章
|
1月前
|
存储 监控 算法
电脑监控管理中的 C# 哈希表进程资源索引算法
哈希表凭借O(1)查询效率、动态增删性能及低内存开销,适配电脑监控系统对进程资源数据的实时索引需求。通过定制哈希函数与链地址法冲突解决,实现高效进程状态追踪与异常预警。
161 10
|
7月前
|
运维 Prometheus 监控
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
本文围绕企业级告警体系构建展开,探讨了监控与告警在系统稳定性中的重要作用。通过梳理监控对象、分析指标、采集数据及配置规则等环节,提出告警体系建设的通用流程,并针对多平台告警、误报、告警风暴等问题提供解决思路。结合阿里云可观测产品,分享了某电商企业的实践案例,展示了如何通过标签规范、日志标准和统一管理平台实现高效告警处置,为构建全面且实用的告警体系提供了参考指南。
765 1
【YashanDB 知识库】YCM Monit 进程频繁误告警
YCM中Monit进程出现频繁误告警问题,表现为“Monit进程停止服务”的邮件告警。原因是服务器资源高负载时,Monit检测动作失败。解决方法为将检测间隔从默认10秒调整至1分钟。此问题影响23.3.2.5及更早版本,目前无修复版本。详情可见YashanDB知识库相关文章。
【YashanDB知识库】YCM Monit进程频繁误告警
【YashanDB知识库】YCM Monit进程频繁误告警
|
6月前
|
运维 监控 网络协议
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
214 11
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
|
5月前
|
编解码 监控 算法
CDN+OSS边缘加速实践:动态压缩+智能路由降低30%视频流量成本(含带宽峰值监控与告警配置)
本方案通过动态压缩、智能路由及CDN与OSS集成优化,实现视频业务带宽成本下降31%,首帧时间缩短50%,错误率降低53%。结合实测数据分析与架构创新,有效解决冷启动延迟、跨区域传输及设备适配性问题,具备快速投入回收能力。
363 0
|
10月前
|
Web App开发 监控 网络协议
网络分析与监控:阿里云拨测方案解密
阿里云网络拨测业务提供了全球、多种协议、多种网络态势的用户网络性能和用户体验监控场景的全面可观测方案。该文章从拨测场景下,介绍了用户如何快速的构建一套全球用户视角的服务可用性大盘,为客户的业务保驾护航。
1354 169
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
1150 3
|
8月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
410 7
数据采集监控与告警:错误重试、日志分析与自动化运维

热门文章

最新文章