storm集群的监控

简介:
    所谓兵马未动,粮草先行,准备将storm用在某个项目中做实时数据分析。无论任何系统,一定要有监控系统并存,当故障发生的时候你能第一个知道,而不是让别人告诉你,那处理故障就很被动了。

    因此我写了这么个项目,取名叫storm-monitor,放在了github上

     https://github.com/killme2008/storm-monitor

    主要功能如下:
1.监控supervisor数目是否正确,当supervisor挂掉的时候会发送警告。
2.监控nimbus是否正常运行,monitor会尝试连接nimbus,如果连接失败就认为nimbus挂掉。
3.监控topology是否正常运行,包括它是否正常部署,是否有运行中的任务。

    当故障发生的时候通过alarm方法警告用户,开放出去的只是简单地打日志。因为每个公司的告警接口不一样,所以你需要自己扩展,修改alarm.clj即可。我们这儿就支持旺旺告警和手机短信告警。

    基本的原理很简单,对supervisor和topology的监控是通过zookeeper来间接地监控,通过定期查看path是否存在。对nimbus的监控是每次起一个短连接连上去,连不上去即认为挂掉。

    整个项目也是用clojure写。你的机器需要安装leinexec插件,然后将你的storm.yaml拷贝到conf目录下,编辑monitor.yaml设定监控参数如检查间隔等,最后启动start.sh脚本即可。默认日志输出在logs/monitor.log。

本文来源于"阿里中间件团队播客",原文发表时间" 2011-12-02"

相关文章
|
5月前
|
调度 流计算
为什么部署起来flink集群 没有资源 哪里有问题呢?
为什么部署起来flink集群 没有资源 哪里有问题呢?
44 0
|
2月前
|
资源调度 Kubernetes Apache
部署Flink集群后没有资源可能有以下几个原因
【2月更文挑战第23天】 部署Flink集群后没有资源可能有以下几个原因
19 2
|
5月前
|
资源调度 Kubernetes 流计算
部署Flink集群后没有资源可能有以下几个原因
部署Flink集群后没有资源可能有以下几个原因
51 1
|
6月前
|
网络安全 流计算
108 Storm集群部署
108 Storm集群部署
15 0
|
8月前
|
存储 分布式计算 资源调度
搭建Flink集群、集群HA高可用以及配置历史服务器
本文介绍了如何搭建一个Flink集群、Flink集群HA高可用,并配置历史服务器以记录Job任务执行的详细信息和状态。
228 1
|
9月前
|
分布式计算 Java 网络安全
Flink独立集群部署和HA部署
场景描述 172.19.9.202 主节点 JobManager 主/从 172.19.9.201 从节点 TaskManager 主/从 172.19.9.203 从节点 TaskManager 主/从
172 0
|
12月前
|
运维 监控 Ubuntu
|
分布式计算 Hadoop 流计算
如何搭建Storm集群?
如何搭建Storm集群?
82 0
|
消息中间件 存储 JSON
Flink on yarn 实时日志收集到 kafka 打造日志检索系统
背景 在 Flink on yarn 的模式下,程序运行的日志会分散的存储在不同的 DN 上,当 Flink 任务发生异常的时候,我们需要查看日志来定位问题,一般我们会选择通过 Flink UI 上面的 logs 来查看日志,或者登录到对应的服务器上去查看,但是在任务日志量非常大的情况下,生成的日志文件就非常多,这对于我们排查问题来说,就造成了很大的不便,所以,我们需要有一种统一的日志收集,检索,展示的方案来帮忙我们快速的分析日志,定位问题.
|
流计算
storm集群的搭建
最近也是有朋友问我storm的问题,好长时间没玩storm了,今天就来简单的说一下吧,首先我们来看一下官网的图片,storm是完全实时的,就像水龙头打开后一样,会不停的往外面流水.所以他的延迟非常的低,这也是他的特点.然后先搭建storm集群吧,storm集群的搭建也比较简单.