Nagios是十分受欢迎的、开源且免费的计算机及网络系统监控软件。Nagios是“Nagios Ain‘t Gonna Insist On Sainthood”的缩写。它最早是在1999年以“NetSaint”发布。Nagios主要应用在Linux和Unix平台环境下的监控,但通过插件,也可以监控MS Windows系统的主机。Nagios在LinuxCon 2010 Poll并选为最受欢迎的IT运维工具。它被Infoworld在2009年评为最佳开源软件,同时也是该年度的SourceForge社区的系统管理工具最佳选择。Nagios也被很多知名企业所采用,包括AOL,DHL,At&t,欧莱雅,德州仪器,Siemens COM CZ,时代华纳有线,Yahoo等。
Nagios的特征包括:
l 监控网络服务(SMTP、POP3、HTTP、NNTP、PING等);
l 监控主机资源(处理器负荷、磁盘利用率等);
l 并行服务检查机制;
l 具备定义网络分层结构的能力,用”parent”主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态,提供设备组网拓扑展示能力;
l 当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信、用户定义方式);
l 具备定义事件句柄功能,它可以在主机或服务的事件发生时获取更多问题定位;
l 简单地插件设计使得用户可以方便地扩展自己服务的检测方法;
l 自动的日志轮转;
l 可以支持并实现对主机的冗余监控;
l 可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等;
二次开发
Nagios的功能是监控服务和主机,但是他自身并不包括这部分功能,所有的监控、检测功能都是通过各种插件来完成的。启动 Nagios后,它会周期性的自动调用插件去检测服务器状态,同时 Nagios 会维持一个队列,所有插件返回来的状态信息都进入队列,Nagios每次都从队首开始读取信息,并进行处理后,把状态结果通过 web 显示出来。
Nagios Plug-in机制
Nagios Daemon通过加载一些官方的或其它自开发的插件(Plug-in),能够实现对诸如服务器、网络、应用甚至房间温度和湿度等的监控。Nagios Core作为Nagios Daemon的核心,负责对这些插件的结果进行处理(诸如统计、转储、人工或自动响应处理等)。因此Nagios Core即为Nagios的事件池的核心。在Nagios Core内部,它为每一种加载的插件都会分配独立的工作缓冲区(即以objecttype作为区分),以存放相应插件所产生的事件信息。每一个独立运行的Nagios Daemon可以有自己的名称以便集群Nagios环境下的相互区别,即从更大的层面来区分这些工作缓冲区。
Nagios插件通常是通过命令行方式监控主机或服务工作状态的脚本,由Nagios进行按需调用,并把执行结果返回给Nagios。Nagios正是根据这些返回值来判断是否“采取某种行动”(如运行事件句柄(event handlers),发送通知等)。下图展示了插件相对于Nagios进程和被监控对象间的关系:
为了管理插件,Nagios 每次在查询一个服务的状态时,产生一个子进程,并且它使用来自该命令的输出和退出代码来确定具体的状态。
下面提供了一个 Python 示例脚本,用于检查 UNIX® 平均负载。它假定 2.0 以上的级别表示警告状态,而 5.0 以上的级别表示危险状态。这些值都采用了硬编码的方式,并且始终使用最近一分钟的平均负载。
Nagios Add-on机制
Nagios支持以Add-on方式扩展监控信息处理能力。Nagios采集到的监控信息都被看做事件,事件接收者对感兴趣的事件注册,事件发生时Nagios的事件机制会将事件发送到事件接收者。Nagios的Add-on就是事件接收者。Add-on通过将自身注册到感兴趣的事件上,可以实时的从Nagios接收到事件,并作出相应处理。
Nagios Add-on工作原理图:
Nagios监控效果: