云监控--3分钟帮你实现日志关键字报警
在企业级的业务运维和运营场景中, 日志正扮演着越来越重要的角色。但使用传统日志采集与分析方案ELK和监控界的老大哥Zabbix就面临着需要投入大量时间和人力搭建庞大的攻城武器、付出沉重的运维成本的问题,实在有点得不偿失。
基于阿里云云监控的企业级监控平台构建
随着阿里云云监控产品的日渐完善,基于云计算的IT资产监控越来越方便,结合已经开放的API和外部回调接口等功能,企业级客户的监控系统可以变得更加强大。传统需要在主机上装agent的监控体系,例如zabbix以及类似其他的商业软件都不再适用云IT资产,主要体现在:
除了ECS可以继续安装agent以外,类似云RDS,云Redis,MaxCompute等云产品根本没有提供这种agent数据采集的入口。
阿里云监控 Linux Agent安装
阿里云监控 Linux Agent安装
安装
直接复制以下命令后在服务器上使用 root 权限运行即可。
64位
sudo bash -c "wget -e 'http_proxy=hzcmsproxy.
用自定义监控实现 GPU 异常状况的检查与报警
## 应用场景 ##
* 阿里云的云监控已原生支持 GPU 实例,可参考:[云监控实现GPU云服务器的GPU监控和报警](https://yq.aliyun.com/articles/610219)
* 小概率场景中,GPU 卡会处于异常状态( 例如因[显存校验失败](https://docs.