针对监控Linux主机常见的报警错误修复方法:

(1.nagios服务器监控linux报警NRPE: Command 'check_swap' not defined错误:

分析原因:由监控原理可知被监控端做监控然后传给监控服务器绘总,设置监控详细参数主要是设置被监控端的nrpe.cfg文件如果nagios服务器想要监控客户机swap分区,但客户机nrpe.cfg文件没有swap监控对像,这时监控服务器就是报错(NRPE command ‘check_swap’no defined).

修复方法:首先查看被监控主机的/usr/local/nagios/etc/nrpe.cfg文件看是否有定义如下的命令:  command[check_swap]=/usr/local/nagios/libexec/check_swap -w 20    % -c10%

如果没有定义就添加此命令到/usr/local/nagios/etc/nrpe.cfg文件中之后在被控端Linux主机重启xinetd服务

service  xinetd restart 并重启下nrpe服务/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg –d

之后在被监控Linux主机查看是否存在5666端口(nrpe的默认端口)

netstat -an | grep 5666

tcp      0    0 0.0.0.0:5666             0.0.0.0:*         LISTEN

如果存在则说明nrpe服务正常。之后再次查看nagios监控图即可发现问题已经解决变为ok状态。

(2.nagios服务器监控Linux报警NRPE: Command 'check_uses' not defined错误:

分析原因:首先查看被监控Linux主机的nrpe.cfg配置文件看是否将此行命令中的users写成了uses : command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10

如果写错了改成users。之后在nagios监控服务器上Vim /usr/local/nagios/etc/objects/mylinux.cfg看是否将其中的users写成了uses如果写错更改为users(其中mylinux.cfg文件是你自己定义的为了监控linux主机服务的一个文件。)

define service{

            use      generic-service

           host_name   mylinux

          service_description check-users

          check_command  check_nrpe!check_users

}

之后在nagios服务器重启nagios服务,xined服务,并在被监控端Linux主机重启nrpe,xinetd,nagios服务。

(3.nagios监控Linux主机报警错误信息:check_users:Warning threshold must be a positive integer

解决方式:修改被监控Linux主机的/usr/local/nagios/etc/nrpe.cfg中将dont_blame_nrpe=1改为dont_blame_nrpe=0(默认即为0)之后看如下命令前面是否有#号存在如果没有加上#号将以下的命令注释掉:

#command[check_users]=/usr/local/nagios/libexec/check_users -w $ARG1$ -c $ARG2$

   #command[check_load]=/usr/local/nagios/libexec/check_load -w $ARG1$ -c $ARG2$

   #command[check_disk]=/usr/local/nagios/libexec/check_disk -w $ARG1$ -c $ARG2$ -p $ARG3$

   #command[check_procs]=/usr/local/nagios/libexec/check_procs -w $ARG1$ -c $ARG2$ -s $ARG3$

之后在被控Linux主机重启xinetd,nrpe服务即可。

(4.nagios监控Linux主机报警错误信息:NRPE: Command 'check_disk' not defined

解决方式:查看nagios监控服务器上的/usr/local/nagios/etc/objects/mylinux.cfg的mylinux.cfg文件(其中mylinux.cfg文件是你自己定义的为了监控linux主机服务的一个文件。)看其中的关于

define service{

            use      generic-service

           host_name   mylinux

          service_description check-disk

          check_command  check_nrpe!check_disk

中的check_command参数是否和被监控Linux主机的nrpe.cfg文件中是否正确定义此命令:command[check_disk]=/usr/local/nagios/libexec/check_disk -w 20% -c 10%

如果没有加上此命令。之后在被控主机重启xinetd,nrpe服务即可。

(5.nagios监控Linux主机报警错误信息:PROCS WARNING: 274 processes  

分析原因:可能是被控Linux端的开启的进程数超过了nrpe.cfg文件中定义的进程数:

command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 300

比如被控端Linux进程超过了150也就符合了-w 150所以就会报警warning