nagios升级要点(从2.x到3.x)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
云数据库 RDS MySQL,高可用系列 2核4GB
简介:
先将当前的nagios2.9备份
cd /usr/local
cp -r nagios nagios2.9
cd /etc/init.d/
cp nagios nagios2.9


升级(从2.9到3.0.3)
下载nagios-3.0.3
首先大致的看一下里面的两篇文章
whatsnew.html和upgrading.html
介绍了新版的特点和升级方法

然后开始升级工作
解压缩后执行 
./configure --with-command-group=nagios
make all
make install
然后验证
/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg

报两个warning和一个critical
两个warning是:downtime_file 和 comment_file这两个文件已经不在使用,将他们的内容添加到state_retention_file这个文件的后面
一个critical是:434行有错误,变量不能识别
解决两个warning的方法如下:
先将nagios.cfg中comments 和downtime变量注释掉
# COMMENT FILE
# This is the file that Nagios will use for storing host and service
# comments.

#comment_file=/usr/local/nagios/var/comments.dat

# DOWNTIME FILE
# This is the file that Nagios will use for storing host and service
# downtime data.

#downtime_file=/usr/local/nagios/var/downtime.dat
查找state_retention_file=/usr/local/nagios/var/retention.dat
然后执行
cd /usr/local/nagios/var
cat comments.dat >>retention.dat
cat downtime.dat >>retention.dat
解决critical的方法如下
注释掉434行的#check_result_buffer_slots=4096
这个变量已经不在使用了。
然后再验证启动nagios就没问题了

需要说明:从2.x升级到3.x还有这样一点要注意
Extended host and extended service definitions have been deprecated. They are still read and processed by Nagios, but it is recommended that you move the directives found in these definitions to your host and service definitions, respectively. 
我配置的有extended service,但是里面的配置信息是nagios grapher自动生产的。况且3.x是可以读的,只是推荐写到service定义中而已。我这里并没有按照这条的建议。没对原来的配置做修改。


Nagvis启动故障的排查
更新nagios之后 启动nagvis需要的NDO组件
/usr/local/nagios/bin/ndo2db -c /usr/local/nagios/etc/ndo2db.cfg
提示Could not bind socket: Address already in use
查看/usr/local/nagios/etc/ndo2db.cfg
有这样的内容
# SOCKET TYPE
# This option determines what type of socket the daemon will create
# an accept connections from.
# Value:
#   unix = Unix domain socket (default)
#   tcp  = TCP socket
socket_type=unix
#socket_type=tcp
socket是unix类型的(是一个sock文件),而不是tcp类型的(tcp端口)

原来是/usr/local/nagios/var/ndo.sock还存在(因为ndo是使用kill命令杀掉进程的)
所以删掉这个.sock文件即可
运行/usr/local/nagios/bin/ndo2db -c /usr/local/nagios/etc/ndo2db.cfg
启动没问题,但是nagivs页面没打开
查看进程也不对
因为会有两个/usr/local/nagios/bin/ndo2db -c /usr/local/nagios/etc/ndo2db.cfg进程才是正常的
查看重启nagios,查看启动日志,报错
Error: Could not load module '/usr/local/nagios/bin/ndomod.o' -> /usr/local/nagios/var/spool/checkresults/nebmodeRKfDc: undefined symbol: find_serviceextinfo
发现是程序版本的问题,要使用支持3.x的NDO
下载ndoutils-1.4b7
解压缩后执行
./configure --with-mysql-lib=/usr/local/mysql/lib/mysql --with-mysql-inc=/usr/local/mysql/include/
make
将原来的备份
[root@info src]# cd /usr/local/nagios/bin
[root@info bin]# cp ndo2db ndo2db_2.x
[root@info bin]# cp ndomod.o ndomod.o_2.x

将正在运行的ndo杀掉,sock文件删掉
然后转到刚刚make好的ndo的文件夹的src目录下
[root@info var]# cd /home/nagios/ndoutils-1.4b7/src
复制3.x版本的ndo程序
[root@info src]# cp  ndomod-3x.o  /usr/local/nagios/bin/ndomod.o
[root@info src]# cp ndo2db-3x   /usr/local/nagios/bin/ndo2db
启动NDO
[root@info src]# /usr/local/nagios/bin/ndo2db -c /usr/local/nagios/etc/ndo2db.cfg

重启nagios
日志里面出现
[1217822155] ndomod: NDOMOD 1.4b7 (10-31-2007) Copyright (c) 2005-2007 Ethan Galstad ([email]nagios@nagios.org[/email])
[1217822155] ndomod: Successfully connected to data sink.  0 queued items to flush.
[1217822155] Event broker module '/usr/local/nagios/bin/ndomod.o' initialized successfully.

稍等一会nagvis页面就会正常出现了



本文转自yahoon 51CTO博客,原文链接:http://blog.51cto.com/yahoon/90970,如需转载请自行联系原作者

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
4天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
291 116
|
19天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
6天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
412 38
Meta SAM3开源:让图像分割,听懂你的话
|
13天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
670 220
|
1天前
|
Windows
dll错误修复 ,可指定下载dll,regsvr32等
dll错误修复 ,可指定下载dll,regsvr32等
132 95
|
11天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1665 158
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
913 61