概述:

        触发器中的表达式使用很灵活,我们可以创建一个复杂的逻辑测试监控,触发器表达式形式如下:



{<server>:<key>.<function>(<parameter>)}<operator><constant>



   {主机:key.函数(参数)}<表达式>常数

       具体的例子,请接着往下走,很简单


Functions函数:

       触发器functions可以引用检索到的值,当前时间或者其他元素。触发器表达式支持的function完整列表请点击官网地址 supported functions Function参数----大多数数值functions可以使用秒来作为参数。你可以使用前缀“#”来表示它有不同的含义

FUNCTION CALL

描述

sum(600)

600秒内的总和

sum(#5)

最新5个值的和


last函数使用不同的参数将会得到不同的值,#2表示倒数第二新的数据。例入从老到最新值为1,2,3,4,5,6,7,8,9,10,last(#2)得到的值为9,last(#9)得到的值为2。last函数必须包含参数。

avg,count,last,min和max函数还支持额外的参数,以秒为单位的参数time_shift(时间偏移量)。例如avg(1h,1d),那么将会获取到昨天的1小时内的平均数据。


[warning]备注:触发器表达式需要使用history历史数据来计算,如果history不可用(time_shift时间偏移量参数无法使用),因此history记录一定要保留长久一点,至少要保留需要用的记录。

触发器表达式可以使用单位符号来替代大数字,例如5m替代300,或者1d替代86400,1k替代1024字节等等。

操作符

优先级

操作

定义

1

/


2

*


3

-


4

+


5

<

小于. 用法如下:

A<B (A<=B-0.000001)

6

>

大于. 用法如下:

A>B (A>=B+0.000001)

7

#

不等于.用法如下:

A#B (A<=B-0.000001) | (A>=B+0.000001)

8

=

等于. T用法如下:

A=B (A>B-0.000001) & (A<B+0.000001)

9

&

逻辑与

10

|

逻辑或

触发器示例

示例---触发器名称:Processor load is too high on www.zabbix.com



{www.zabbix.com:system.cpu.load[all,avg1].last(0)}>5



触发器说明:

www.zabbix.com:host名称

system.cpu.load[all,avg1]:item值,一分内cpu平均负载值

last(0):最新值

>5:最新值大于5

如上所示,www.zabbix.com这个主机的监控项,最新的CPU负载值如果大于5,那么表达式会返回true,这样一来触发器状态就改变为“problem”了。

示例二---触发器名称:www.zabbix.com is overloaded



{www.zabbix.com:system.cpu.load[all,avg1].last(0)}>5|{www.zabbix.com:system.cpu.load[all,avg1].min(10m)}>2



当前cpu负载大于5或者最近10分内的cpu负载大于2,那么表达式将会返回true.


示例三---触发器名称:/etc/passwd has been changed,使用函数 diff():



{www.zabbix.com:vfs.file.cksum[/etc/passwd].diff(0)}>0



/etc /passwd最新的checksum与上一次获取到的checksum不同,表达式将会返回true. 我们可以使用同样的方法监控系统重要的配置文件,例如/etc/passwd,/etc/inetd.conf等等。这些zabbix一般都会自带,没带 的你自己加上吧。

示例四----触发器名称:Someone is downloading a large file from the Internet,使用函数 min:



{www.zabbix.com:net.if.in[eth0,bytes].min(5m)}>100K



当前主机网卡eth0最后5分钟内接收到的流量超过100KB那么触发器表达式将会返回true


示例五---触发器名称:Both nodes of clustered SMTP server are down



{smtp1.zabbix.com:net.tcp.service[smtp].last(0)}=0&{smtp2.zabbix.com:net.tcp.service[smtp].last(0)}=0



当smtp1.zabbix.com和smtp2.zabbix.com两台主机上的SMTP服务器都离线,表达式将会返回true.


示例六---触发器名称:Zabbix agent needs to be upgraded,使用函数str():



{zabbix.zabbix.com:agent.version.str("beta8")}=1



如果当前zabbix agent版本包含beta8(假设当前版本为1.0beta8),这个表达式会返回true.


示例七---触发器名称:Server is unreachable



{zabbix.zabbix.com:icmpping.count(30m,0)}>5



如上表达式表示最近30分钟zabbix.zabbix.com这个主机超过5次不可到达。


示例八---触发器名称:No heartbeats within last 3 minutes,使用函数 nodata():



{zabbix.zabbix.com:tick.nodata(3m)}=1



tick 为Zabbix trapper类型,首先我们要定义一个类型为Zabbix trapper,key为tick的item。我们使用zabbix_sender定期发送数据给tick,如果在3分钟内还未收到 zabbix_sender发送来的数据,那么表达式返回一个true,与此同时触发器的值变为“PROBLEM”。


示例九---触发器名称:CPU activity at night time,使用函数 time():



{zabbix:system.cpu.load[all,avg1].min(5m)}>2&{zabbix:system.cpu.load[all,avg1].time(0)}>000000&{zabbix:system.cpu.load[all,avg1].time(0)}<060000



只有在凌晨0点到6点整,最近5分钟内cpu负载大于2,表达式返回true,触发器的状态变更为“problem”


示例十---触发器名称:Check if client local time is in sync with Zabbix server time,使用函数 fuzzytime():



{MySQL_DB:system.localtime.fuzzytime(10)}=0



主机MySQL_DB当前服务器时间如果与zabbix server之间的时间相差10秒以上,表达式返回true,触发器状态改变为“problem”


示例十一---触发器名称:Comparing average load today with average load of the same time yesterday (使用 time_shift 时间偏移量参数).



{server:system.cpu.load.avg(1h)}/{server:system.cpu.load.avg(1h,1d)}>2



This expression will fire if the average load of the last hour tops the average load of the same hour yesterday more than two times.


Hysteresis(迟滞,滞后)

        简单的说触发器状态转变为problem需要一个条件,从problem转变回来还需要一个条件才行。一般触发器只需要不满足触发器为problem条件即可恢复。明白了么?不明白就看例子吧。

        有时候触发器需要使用不同的条件来表示不同的状态,举个官网很有趣的例子:机房温度正常稳定为15-20°,当温度超过20°,触发器值为problem,直到温度低于15°才会接触警报,异常会解除。别整这些没用的,我们看实例.


        为了达到这个效果,我们需要使用如下触发器表达式:

示例1---触发器名称:Temperature in server room is too high



({TRIGGER.VALUE}=0&{server:temp.last(0)}>20)|({TRIGGER.VALUE}=1&{server:temp.last(0)}<15)



如上有两个小括号,前面一个表示触发异常的条件,后面一个表达式表示解除异常的条件。

注意:宏变量 {TRIGGER.VALUE}将会返回当前触发器的值

示例2---触发器名称:Free disk space is too low

Problem: 最近5分钟剩余磁盘空间小于10GB。(异常)

Recovery: 最近10分钟磁盘空间大于40GB。(恢复)

简单说便是一旦剩余空间小于10G就触发异常,然后接下来剩余空间必须大于40G才能解除这个异常,就算你剩余空间达到了39G(不在报警条件里)那也是没用的,有意思不!



({TRIGGER.VALUE}=0&{server:vfs.fs.size[/,free].max(5m)}<10G) |({TRIGGER.VALUE}=1&{server:vfs.fs.size[/,free].min(10m)}<40G)



结尾

这篇文章很有必要细细读,很重要。




zabbix触发器依赖关系详解


 概述

   Zabbix 触发器可以设置依赖性,例如我配置了两个触发器,一个触发器定义www.ttlsa.com这个HOST是否在运行中,另一个是www.ttlsa.com的网络是否通畅。假如网络出现故障,但是ttlsa服务器并未出现故障,我们依旧会收到这两个触发器给到的故障通知。


    现在的问题很明显,HOST是正常的,肯定不希望收到他的故障信息,因为它正常工作。所以在配置HOST触发器时,我们需要增加依赖关系,依赖网络是否畅通这个触发器。一旦网络出现故障,将不会出发HOST故障的通知。单个触发器可以依赖于多个触发器。

触发器依赖要点

       一台HOST的触发器可以依赖其他HOST的触发器,但是注意不要有死循环依赖。比如A依赖B,B依赖C,C又依赖A。一个圆圈,没完没了。如下是A依赖B,B又依赖A,根本依赖不了,有如下报错。


      一个模板的触发器可以依赖另外一个模板的触发器,例如模板A触发器依赖模板B触发器。一个HOST要链接A模板,那么它同时要链接A模板(因为模 板A中的触发器依赖了模板B中的触发器),但是HOST可以单独链接模板B(B是被依赖)。在一个host单独链接template A,结果出现如下错误,所以别忘记了一起把template B也链接到HOST中。

      模板中的触发器可以依赖HOST中的触发器。如果某个HOST链接这类模板,那么HOST创建的相应的触发器也同样会依赖那个HOST的触发器。 举个官方的例子,某个模板中的一些触发器依赖了route/主机的触发器,凡事链接(理解为套用)了这个模板的机器都会依赖这些router/主机。说了 那么多,其实就是继承了。

HOST中的触发器不能依赖模板中的触发器。


配置

编辑触发器,选择选项卡“dependencies”,点击Add,选择你需要依赖的触发器,如下图:



然后点击保存,可以看到触发器多了一个depend on



多个依赖实例

     借用官方文档的示例,Host前面有个Router2,Router2前面有Router1,如下:

Zabbix - Router1 - Router2 - Host

     如果Router1挂了,很明显Router2和Host连不上,我们不希望收到关于连不上Router2和HOST的通知,因此,我们定义了如下依赖关系:

'Host is down' trigger depends on 'Router2 is down'trigger'Router2 is down' trigger depends on 'Router1 is down' trigger

     在触发器将Host的状态改变为'Host is down'之前,它会检查host相关的依赖,这时候如果发现它依赖的触发器只要出现一个problem状态,那么当前触发器状态不会变化,这样一来action不会执行,报警通知sms/email自然也不会发送了。

    zabbix会递归执行检测,如果router1或者router2有一个出现连不上,那么Host的触发器不会有任何的改变。


 

 zabbix创建触发器trigger

1. 创建触发器

了解了什么触发器,接下来看下zabbix触发器怎么创建和配置,方法很简单,请大家往下读,有什么问题请留言。

创建触发器步骤:

  • 点击Configuration(配置) → Hosts(主机)
  • 点击hosts(主机)相关行的trigger
  • 点击右上角的创建触发器(create trigger),你也可以修改列表中的触发器

在表单中输入相应的信息

2. 配置触发器

如下为触发器


zabbix触发器配置

参数介绍

参数

描述

Name

触发器名称.

名称可以包含宏变量: {HOST.HOST}, {HOST.NAME}, {HOST.CONN}, {HOST.DNS}, {HOST.IP}, {ITEM.VALUE}, {ITEM.LASTVALUE} and {$MACRO}.

$1, $2…$9 可以被用来关联表达式的常量

示例:

name:Processor load above $1 on {HOST.NAME}”

表达式:system.cpu.load[percpu,avg1].last(0)}>5

会显示为:Processor load above 5 on ttlsa云服务器

Expression

计算触发器状态的逻辑表达式,这边设置为上一次值等于0

Multiple PROBLEM events generation

通过设置该选项,你可以在触发器产生problem的时候触发一个事件

Description

触发器的描述,一般name写的不清楚,这边可以具体描述这个触发器的作用,例如nginx当前离线,请处理等等。Zabbix 2.2版本开始,支持触发器名称。

URL

在Monitoring → Triggers中,可以看到URL并且可以点击,一般情况下他需要配合触发器ID来使用,在url中包含触发器ID(宏变量 {TRIGGER.ID}),这样可以直接点击到具体触发器中。

Severity

设置严重性级别,上图我设置为“灾难”,你可以相应的设置警告、严重等状态的触发器

Enabled

当前触发器是否启用

3. 触发器依赖

上图大家可以看到有个Dependencies,他是做什么的? 翻译为依赖,具体的用法我们后面章节来讲


 

    zabbix触发器严重性定义Trigger severity

severity通常用来定义当前item的一个状态的严重性。我们可以根据不同的严重性来定义不同的事件,例如报警,zabbix自带如下严重性定义。

Trigger severity表格

SEVERITY

DEFINITION

颜色

Not classified

未知.

灰色

Information

一般信息.

浅绿

Warning

警告

×××

Average

一般问题.

橙色

High

严重问题.

红色

Disaster

灾难,会带来损失的那种.

深红

severities 用途

  • 可视化显示,不同级别显示不同颜色,例如一般严重性为绿色
  • 声音报警,不同的级别不同声音.
  • 使用用户自定义媒体报警,例如严重问题发短信,其他问题发送邮件。
  • 根据严重性来定义是否报警

可以自定义触发器严重性以及颜色,请参考:customise trigger severity names and colours.


        zabbix自定义触发器严重性    

触发器严重性介绍

触发器严重性命名以及颜色定义都可以在zabbix web后台定义,点击Administration(管理) → General (常规)→ Trigger severities(触发器严重性)。这边定义好的颜色在每个不同主题/风格里面都是一样的。
所有系统默认的触发器名字在各国的语言包中都有翻译,但是你自定义的其他语言包不会给你翻译,因为在语言包里面没有这一个项目。那么怎么保证各国语言包里面都能相应的翻译自定义的严重性呢?
我们知道zabbix默认定义了6个触发器严重性,分别为:Not classified、Information、Warning、Average、High、Disaster,有些人觉得High不好理解或者觉得描述不满意,想改成Important,请看如下操作:

设置触发器名称

点击Administration(管理) → General (常规)→ Trigger severities(触发器严重性),将High改为important,当然这里你也可以自定义你的颜色,我们这边就不再敖述了,修改完之后点击保存。


zabbix修改严重性名称

添加内容到frontend.po

# /data/site/monitor.ttlsa.com/locale/en_US/LC_MESSAGES/frontend.po
msgid "Important"msgstr "very Import"

[warning]备注:/data/site/monitor.ttlsa.com/是您zabbix站点根目录[/warning]

创建.mo文件

需要执行locale目录下的make_mo.sh文件,如果出现./make_mo.sh: line 4: msgfmt: command not found,那么请你先安装msgfmt

# yum install gettext

然后执行make_mo.sh

# ./make_mo.sh

效果

随意选择一个Host的触发器列表,看左边信息,请看如下图<


severities修改并翻译

在 自定义触发器名称之前应该显示High的,这边被我们修改成了Very Import。zabbix是一个多语言监控系统,如果你想切换到中文环 境,那么你需要修改zh_CN下的frontend.po,然后make_mo.sh创建frontend.mo。否则将只会显示Important,如 下:


severities未翻译

这边直接显示触发器的MSGID,因为你没翻译。

最后

6个触发器级别,名称随你修改,但是大多数情况下我们都不需要修改,默认的挺好的,不是吗?非要自定义,我不拦你。


 

      zabbix获取上一个值prev zabbix触发器函数

zabbix触发器方法prev用于获取item前一个返回值,与方法last(#2)是同样的意思

zabbix触发器方法prev - web界面


zabbix获取前一个返回值

如下是web界面提供的功能:

Previous value is > N
Previous value is < N
Previous value is = N
Previous value is NOT N

zabbix触发器方法prev - 实例

CPU前一个负载值大于0.7

{dd-pre-01:system.cpu.load[percpu,avg1].prev()}>0.7

或者使用last获得同样的效果

{dd-pre-01:system.cpu.load[percpu,avg1].last(#2)}>0.

zabbix触发器方法prev - 支持类型

它支持类型包括:float, int, str, text, log


 

     zabbix获取当前UNIX时间戳now zabbix触发器函数

获取当前UNIX时间戳,UNIX时间戳是什么?当前距离1970年1月1日00:00:00一共多少秒。使用zabbix触发器函数:now(),举一个简单的例子。

2020年1月1日0时0分0秒(UNIX时间戳:1577808000)到2020年2月1日0时0分0秒(UNIX时间戳:1580486400)之间,cpu1分钟负载大于1触发告警。例子意义不大,希望大家举一反三。

{ttlsa-server:system.cpu.load[all,avg1].last()}>1 and
{ttlsa-server:system.cpu.load[all,avg1].now()}>1577808000 and
{ttlsa-server:system.cpu.load[all,avg1].now()}<1580486400

      zabbix取平均值avg zabbix触发器函数

zabbix触发器方法avg与上一节的abschange多了时间概念。上一节仅仅是取前后两个值对比,avg有如下取值方式:

  1. 最后N个值
  2. 最近XX时间,例如最近1h
  3. 以上1和2还要结合time_thift时间偏移参数,例如1h


zabbix-function-avg

zabbix触发器方法avg - web界面

如下是web界面提供的功能:

Average value of a period is < N
Average value of a period is > N
Average value of a period is = N
Average value of a period is NOT N

zabbix触发器方法avg - 实例

CPU负载最近一小时平均值等于1

{dd-pre-01:system.cpu.load[percpu,avg1].avg(1h)}=1

CPU负载昨天当前时间的上一小时平均值等于1,1d表示时间往前推移1天,你可以写1h,1m,10d,现在明白了time_thrift的用法了吧?

{dd-pre-01:system.cpu.load[percpu,avg1].avg(1h,1d)}=1

CPU负载最近10次的平均值等于1

{dd-pre-01:system.cpu.load[percpu,avg1].avg(#10)}=1

昨天同一时间CPU负载最近10次的平均值等于1

{dd-pre-01:system.cpu.load[percpu,avg1].avg(#10,1d)}=1

zabbix触发器方法avg - 支持类型

它支持类型包括:float, int,能平均的除了数字还有谁?

 


      获取最大值max zabbix触发器函数

zabbix触发器函数max - 作用

有如下作用:

  1. 获取一个时间周期内最大值
  2. 获取几个返回值中的最大值
  3. 以上方法,时间往前推移1分钟,1小时,1天等等

zabbix触发器函数max - 对应web


文字如下

Maximum value for period T is > N
Maximum value for period T is < N
Maximum value for period T is = N
Maximum value for period T is NOT N

zabbix触发器函数max - 例子

语法:max (sec|#num,<time_shift>)

一个小时内cpu负载最大值超过10

{dd-pre-01:system.cpu.load[percpu,avg1].max(1h)}>10

cpu负载最近10个返回值,最大值超过10

{dd-pre-01:system.cpu.load[percpu,avg1].max(#10)}>10

 

最小值min zabbix触发器函数

功能和上一节将的max整好相反,我们将结合max、min来一个更有意思的实例。

zabbix触发器函数min - 作用

,有如下作用:

  1. 获取一个时间周期内最小值
  2. 获取几个返回值中的最小值
  3. 以上方法,时间往前推移1分钟,1小时,1天等等

zabbix触发器函数min - 对应web


文字如下

Minimum value for period T is > N
Minimum valuefor period T is < N
Minimum value for period T is = N
Minimum value for period T is NOT N

zabbix触发器函数min - 例子

语法:min(sec|#num,<time_shift>)

一个小时内cpu负载最小值小于0.2

{dd-pre-01:system.cpu.load[percpu,avg1].min(1h)}<0.2

cpu负载最近10个返回值,最小值小于0.2

{dd-pre-01:system.cpu.load[percpu,avg1].min(#10)}<0.2

zabbix触发器函数min/max - 实例

触发器名称:Free disk space is too low

Problem: 最近5分钟剩余磁盘空间小于10GB。(异常)

Recovery: 最近10分钟磁盘空间大于40GB。(恢复)

讲解:简单说便是一旦剩余空间小于10G就触发异常,然后接下来剩余空间必须大于40G才能解除这个异常,就算你剩余空间达到了39G(不在报警条件里)那也是没用的.

({TRIGGER.VALUE}=0 and {server:vfs.fs.size[/,free].max(5m)}<10G)  or 
({TRIGGER.VALUE}=1 and {server:vfs.fs.size[/,free].min(10m)}<40G)

abschange前后差值 zabbix触发器函数

监控实战中,每个同学对触发器告警条件要求各不相同,so,zabbix提供了几十个方法提供使用。部分人对以下功能也不甚了解。接下来,我会一一讲解下图function与zabbix提供function的对应关系,以及他们的功能。


zabbix-function

zabbix取前后差值(绝对值)- abschange

如下是web界面提供的功能:

Absolute difference between last and previous value is = N

Absolute difference between last and previous value is > N

Absolute difference between last and previous value is < N

Absolute difference between last and previous value is NOT N

通过实例来一一了解它,例子也许很滑稽很不合理,但是大家可以举一反三,它只是一个例子

如果(每核)CPU 1分钟负载浮动1(突然增加1,1分钟后又降低1)

{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}=1

如果(每核)CPU 1分钟负载浮动大于1

{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}>1

如果(每核)CPU 1分钟负载浮动小于1

{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}<1

如果(每核)CPU 1分钟负载浮动不等于1

{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}<>1

abschange支持类型

它支持类型包括:float, int, str, text, log,它不仅仅支持数值,还支持字符串。如果取值为字符串,那么字符串相同值为0,不同则为1

如下为主机名发生变更的触发器表达式

{ttlsa-web-01:system.hostname.abschange()}=1



转载于:https://blog.51cto.com/tengq/1906331