监控系统:zabbix

 数据的采集-》存储-》报警(告警)-》展示


监控对象:包括主机,主机之间的数据流量


主机:硬件设备

  系统指标:CPU,memory io(disk磁盘io network网络io)

   cpu:sys(系统空间的比例),usr(用户空间的比例) idle

  业务指标:

SNMP:简单网络管理协议 实现网络管理 

jmx:java管理平台

tps:每秒的事务数

qps:每秒的查询书

采集:


  多保留趋势数据,历史数据只保留最近几个月的时间


存储:


关系型数据库

rrd轮询存储系统(cacti)轮转 没有对应的接口 

时序数据库:时间序列产生的密集型数据存储


influxdb



报警:(发邮件)

 写程序调用ATI服务端的接口


展示:

 展示界面


nagios:很好的告警系统,默认没有存储系统,不能进行展示

cacti:很好的展示系统,告警系统不行

zabbix:监控系统,整合了所有,接口简单直观 c语言编写 ,展示接口使用PHP

        采集:接口(agent snmp ipml imx)

        存储:mysql pgsql

        报警:email,script脚本(短信,微信) ,远程命令,报警升级

        展示:简单图 图形 screen slide show map....


grafana:作为众多的展示接口 可以作为zabbix的接口

statsd:数据采集器

promethues(适用于大规模集群系统监控)+grafana展示

graphite+grafana:


zabbix常用的术语:

       host (主机)

       host group (主机组)

       item 监控项

       trigger (触发器)

       event(事件)

       action(动作)

       escaiation(报警升级)

       media(媒介)

       notification(通知)

       remote command(远程命令)

       template(模版)

       application(应用)

       web场景(web scennario)

       frontend(前端)zabbix的web接口 

trigger(触发器):ok ,PROBLEM,event,action(remote command,alert)

监控核心:监控项

zabbix proxy 分布式监控 可一将部分监控委托出去


zabbix监控Java需要统一专门的网关来实现


实现过程:

 准备三台虚拟机:node1 node2 server

LFT[ ntpdate 172.17.0.159(server ip)

1.sever 


wget下载包

zabbix-release-3.4-2.el7.noarch.rpm  后缀为rpm要用 yum localinstall 安装

rpm -ivh zabbix-release-3.4-2.el7.noarch.rpm

//yum install zabbix-release-3.4-2.e17.noarch.rpm

yum info zabbix-agent

yum repolist

确定数据库配置正确

vim /etc/my.cnf.d/server.cnf

[server]

 skip_name_resolve=ON

 innodb_buffer_pool_size=256M

 innodb_file_per_table=ON

 max_connections=2000

 log-bin=master-log

systemctl start mariadb.service


//mysql_secure_installation  mysql安全脚本,运行后进入mysql需要密码


yum install zabbix-server-mysql zabbix-web zabbix-web-mysql zabbix-agent zabbix-get zabbix-sender

mysql

>create database zbxdb CHARACTER SET 'utf8 ';建立数据库

>GRANT ALL ON zdxdb.* TO 'zbxuser'@'172.17.0.%'IDENTIFIED BY 'zbxpass';

>flush privileges; 刷新授权

>exit

rpm -ql zabbix-server-mysql

cp /usr/share/doc/zabbix-server-mysql-3.4.4/create.sql.gz ./

gzip -d create.sql.gz 

导入指定文件

mysql -uzbxuser -h172.17.0.159 -pzbxpass zbxdb < create.sql

mysql -uzbxuser -h172.17.0.159 -pzbxpass

>show databases;

>use zbxdb;

>show tables;

>exit

cd /etc/zabbix

cp zabbix_server.conf{,.bak}

vim zabbix_server.conf

 //grep -i "^####" zabbix_server.conf

listenport=10051

DBHost=172.17.0.159

DBname=zbxdb

DBUser=zbxuser

DBPassword=zbxpass

DBport=3306

systemctl start zabbix-server.service 启动进程

systemctl status zabbix-server.service查看状态

cd /etc/httpd/conf.d

vim zabbix.conf

vim /etc/php.ini

data.timezone=Asia/Shanghai

systemctl start httpd.service

ss -ntl 查看80端口是否开启


zabbix_get -s 172.17.0.170 -p 10050 -k "net.if.in[eno16777736,packets]"手动获取参数

浏览:

172.17.0.159/zabbix

 next step

 next step

  mysql

  172.17.0.159

  0

  zbxdb

  zbxuser

  zbxpass

 next step


172.17.0.159

  10051

  server

 next step

 next step

 finish


admin

zabbix


sign in 进入仪表盘


configuration配置

 hosts 


 hostgroups

 creat

 mysrvs


 hosts

 creat

 

node1.magedu.com

node1

mysrvs

172.17.0.170

add


Application

 creat

 cpu utils

 add

 creat

 memory stats

 add

 creat

 Network interface stats


items

creat

rate of interrupt

zabbix agent

system.cpu.intr cpu的中断次数

172.17.0.170:10050

 5s

system stats


preprocessing

 change per second 

 add


monintoring

 select

 node1

 apply

 

graph



configuration配置

 host 


action

trigger

operation




//zabbix_get -s 172.17.0.170 -p 10050 -k "system.cpu.intr"

  configuration

 templates


configuration

 hosts

 item

 rate of packets(in)

 zabbix agent

 net.if.in[eth1,packeets]

 172.17.0.170:10050

 numeric(unsigned) 

  pkts/sec

  5s

 network interface stats

 add


preprocessing

 change per second 

 add


克隆

configuration

 hosts

 items

 找到想要克隆的

 clone就可以


定义触发器:

 configuration 

  hosts

  triggers

  creat

  hight speed in pkts

  waring

  {node1.magedu.com:net.if.in[eth1,packets].last(0)}>100  //add

  add


动作:

 configuration

  actions

  action

  

  operation

   send message

 


Asministration

  users

  admin 

  media

  add

  

 local_email

 root@localhost

 add

 

  

 not classifiled   

 

tail /var/log/zabbix/zabbix_server.log 


2.node1


zabbix-release-3.4-2.el7-noarch.rpm

wget zabbix-release-3.4-2.el7-noarch.rpm

rpm -ivh zabbix-release-3.4-2.el7-noarch.rpm                       

yum repolist

yum install zabbix-agent zabbix-sender

cd /etc/zabbix

vim zabbix_agentd.conf

server=172.17.0.159

listenip=0.0.0.0

serverActive=172,17.0.159

hostname=node1.magedu.com

systemctl start zabbix-agent.service

ss -tnl


yum install redis

vim /etc/redis.conf

bind 0.0.0.0

systemctl start redis.service

ss -ntl  6379


visudo

zabbix ALL=(ALL)  NOPASSWD:ALL

# befault  requiretty


cd /etc/zabbix

vim zabbix_agent.conf

EnableRemoteCommands=1

LogRemoteCommands=1开启记录日志

systemctl restart zabbix-agent.service


*在浏览器加入redist


 configuration

  hosts

   item

   redis status

   zabbix agent

   neet.tcp.service[redis,172.17.0.170,6379]

   172.17.170.x:10050

  numeric

  5s

(new applicaition )  redis

 

 add


monitoringg

 latest data

 redis

 apply


hosts

trigger

creat

redis status down

.....

add



actions

 action

 redis service unavailable

 trigger  node1:redis service down

 add

 

 operation

  5s

  new

  5m

  1 1

  remote command

  current host

  custom script

  zabbix agent

  sudo /usr/bin/systemctl restart redis service

  add

add

  recovery

  send messages

  admin

  local_email

 add

add

  

 

vmstat 1 查看



最后展示:

自定义graph

 configuration

  hosts

node1 graph点击

  create

   interface traffic packets

    exploded/normal/stacked/pie

  item

    add  

       rate of packets(in)

       tate of packets(out)

     select

 add


monitoring

  graphs

     mysrvs node1  interface traffic packets

screens

  node1.magedu.com monitoring graphs

  2

  2

add

编辑

screens

  edit screen

  change

  

maps

 create

 map

 

模版:

configuration

 templates

 create

 template

   redis stats

   redis stats

 

db services

 

add


宏():

configuration  Actions  operation

  Default subject:

  Default message:

item 

   name redis listen status{$REDIS_PORT} 运用宏

   key  net.tcp.listen[{$REDIS_PORT}]

全局宏:

Administration

 General   Macros

{$SNMP_COMMUNITY} public

{$REDIS_PORT} 

Update


//*在server的虚拟机在 安装 redis

  yum install redis

  vim /etc/redis.conf

  bind 0.0.0.0

  systemctl start redis.service

//

zabbix

采集:agent/snmp/IPMI/jmx

  设备:主机(hosts)-->主机组(hostgroups)

        监控项(items)-->应用组(applications)

        触发器(triggers 表达式)--> trigger events

        动作(actions CONDITIONS ,OPERATIONS ,RECOVERY OPERATIONS)

          OPERATIONS:

            remote command

            send message-->USERS(media)

         media type:

 可视化:graph slide show map

 监配控制:

     术语:host group-->host -->application -->item-->trigger-->action(conditions operations)

           graph

           simple:每个item定义完成后自动生成

           customed:用于将多个item的数据整合于一个图形中展示

      items:key+parameter(参数)

         key:

          zabbix内建

           type:

             agent(server:pull)被动模式     

             agent(active) (agent:push)主动模式

              snmp v1

             .....


             用户自定义(userprameter)

采集数据:item

采集到的数据类型:

    数值:

      整数

      浮点数

    字符数:

      字符串

      文本

存储的值:

     As is:不对数据做任何处理

     Delta:(simple change) 本次采样减去前一次采样的值的结果 

     Delta:(speed per second)本次采样减去前一次采样的值,再除以经过的时长


trigger触发器:界定某特定的item采集到的数据的非合理区间或非合理状态:逻辑表达式

    逻辑表达式:阈值 ;通常用于定义数据的不合理区间

     ok:正常 状态-->叫老的zabbix版本,其为true;

     problem:非正常 状态-->较老的zabbix版本,其为true

      ok-->problem

      pecovery:problem-->ok

 

      定义触发器的依赖关系

    触发器存在可调用的函数:

       nodata()

       last()

       data()

       time()

       now()

       dayofmonth()

  触发器表达式:

    {hostname:key[paramters].function(arguments)}

    > < = # (not equal)...

   {n1.magedu.com:net.if.in[eno16777736,packets].last(#1)}>15

  trigger间存在依赖关系:

   zabbix server <--> router1 <--> host1

  事件机制:

  四种事件源:trigger discovery,auto regilstration internal


media:媒介   

    告诫信息的传递通道;

    类型:

     Email:邮件

     script:自定义脚本

     sms:短息

     jabber :

      ez texting:

    接收信息的目标为zabbix用户:

    需要用户上定义对应各种媒介通道的接收方式

  

Action:

 conditions:

  多个条件之间存在逻辑关系


展示接口:

  graph:simple custom

  screen:把多个graph整合于同一个屏幕进行展示

  map

模版:

  主机配置模版:用于连接至目标主机实现快速监控管理

     link unlink unlink and clear

  模版可继承

宏:macro 预设的文本替换模式

   级别

    全局:Administration-->general -->macros  对所有主机所有模版都有效

    模版:编辑模版-->macros 对于链接至此的主机都有效

    主机:编辑主机-->macros  只对单个主机有效

 类型:

   内建:{MACRO_name}

   自定义:{$MACRO_NAME}

    命名方式:大写字母,数字和下划线;

           

action:

      

运行测试: zabbix_get -s 172.17.0.159 -p 10050 -k "net.tcp.listen[6379]"



vim /etc/redis.conf 

tail /var/log/zabbix/zabbix_server.logs


hostnamectl set-hostname node1.magedu.com 修改主机名

ntpdate 172.17.0.xxx 同步时间

exec bash 刷新



高级用法:自定义

agent: user parameters  (key值)  能不反回字符型数值就不返回字符型数值

key的使用:

如下:

node1:

systemctl start zabbix-agent.service

iptables -F

 cd /etc/zabbix

cd zabbix_agent.d

 vim memory_usage.conf

UserParameter=memory.used,free -m | awk '/^Mem/{print $3}'

UserParameter=memory.stats[*], cat /proc/meminfo | awk '/^$1/{print $$2}'


systemctl restart zabbix-agent.service                                                                                                   


server:

systemctl start zabbix-server.service

systemctl start mariadb

systemctl start httpd

iptables -F

zabbix_get -s 172.17.0.170 -p 10050 -k "memory.used"


实例2:


1.node1

 cd /etc/zabbix

 cd zabbix_agent.d


yum install nginx php-fpm


vim /etc/php-fpm.d/www.conf


user=nginx

group=nginx

pm.status_path= /fpm-status php的状态页

ping.path= /ping

ping.response= pong


systemctl start php-fpm.service

ss -ntl 查看端口是否开启


nginx反代PHP的页面

vim /etc/nginx/nginx.conf


listen  80 default_service

location ~* \.php${

 fastcgi_pass  127.0.0.1:9000

 fastcgi_index index.php;

 fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name;

 include fastcgi_params;

}

      location ~* /(fpm-status|ping){

 fastcgi_pass  127.0.0.1:9000

 fastcgi_index index.php;

 fastcgi_param SCRIPT_FILENAME $fastcgi_script_name;

 include fastcgi_params

 allow 127.0.0.1;

  deny all;

   access_log off;


    }

  nginx -t

systemctl start nginx.service


172.17.0.170:80/fpm-status

本机测试:

 curl -s http://127.0.0.1/fom-status


//67:node

//  :server


创建zabbix共享

vim php-fpm.conf

UserParameter=fpm.stats[*],curl -s http://127.0.0.1/fpm-ststus | awk '/^$1/{print $$NFF}'

systemctl restart zabbix-agent.service


server:

zabbix_get -s 172.17.0.170 -p 10050 -k "fpm.stata[idle]"




network discovery:

 网络发现是zabbix最具特色的功能之一 它能够根据用户事先定义的规则自动添加监控的主机或服务等

 zabbix server扫描指定网络范围内的主机;

  发现方式:

     ip地址范围

       可用服务(ftp ssh http)

        zabbix_agent的响应

        snmp_agent的响应

    分两个阶段:

      discovery

      action:把discvery events 当作前题条件;

     发现:--》discovery events

          Service Host

     可采取的动作:

        send message remote command

        add/remove host

        enable/disable host

        add host to group

        link template to host

    .. 

Action:

  网络发现中的事件可以触发action,从而自动执行指定的操作 


配置网络发现:

 node2:68

 rpm -ivh zabbix-release-3.4-2.el17.noarch.rpm

 yum install zabbix-agent zabbix-sender

 scp -r /etc/zabbix/* 172.17.0.172:/etc/zabbix

 cd /etc/zabbix

 vim zabbix_agentd.conf

 Hostname=node2.magedu.com

systemctl start zabbix-agent.service

 ss -tnl

configuration

 Discovery

 creat

  test net

  172.17.0.170-180

  1m

check type: zabbix agent

key: system.uname

 add

 ip address

 enable

add


Actions

 Disscovery

Action

 auto add host of test.net

 

operation

  

web监控:

 监控指定的站点的资源下载速度,及页面响应时间,还有响应代码

  一个站点 ,有多个页面。

  内建key:

    web.test.in[Scenario,Step,bps]:传输速率

    web.test.time[Scenario,Step]:响应时长

    web.test.rspcode[Scenario,Step]:响应码

主动/被动 检测


    被动检测:相对于agent而言,agent server向agent请求获取配置的各监控项相关的数据,agent接收请求,获取数据并响应给server

    主动检测:相对于agent而言,agent(action)agent向server请求与自己相关监控项配置,主动的将server配置的监控项相关的数据发送给server

     agent端所需要基本配置:

       ServerActive =

       Hostname=

       HostnmaeItem=

 zabbix_sender发送数据

    zabbix server上的某主机上,直接定义item时随便定义一个不与其它已有key冲突key即可 即item 为“zabbix  trapper”;


configuration

 hosts

 web

 creat

 

基于SNMP监控

 SNMP:简单网络管理协议,基于tcp/ip 和udp协议 实现网络设备之间交换监控,或管理信息

  

   agent/nms

 

SNMP接口:     读(get,getnext)写(set)trap(陷阱);

     161/udp 端口 被监控端

     162/udp 端口 监控端

 SNMP版本:

    v1:1989

    v2:1993

    v3:1998

MIB:management Information Base


OID:Object Id

   


    网络设备:交换机,路由器

要想支持snmp先安装包,linux启用snmp的方法


1.node2:

yum install net-snmp

yum install  net-snmp-utils


管控端只需要开启snmptrapd.service

被管控端需要监控套接字只要开启 snmpd.service 



cd /etc/snmp

cp snmp.conf{,.bak}

vim snmp.conf

 view systemview included .1.3.6.1.2.1.1

 view systemview included .1.3.6.1.2.1.25.1.1 

//view systemview included .1.3.6.1.4.1.2021

// view systemview included .1.3.6.1.2.1.25.1.1

systemctl start snmp.service

测试:

snmpget -v 2c -c public 172.17.0.x 1.3.6.1.2.1.1.3.0


snmpwalk -v 2c -c public 172.17.0.x


snmpget -h 获取数据

定义ACL

 .1.3.6.1.2.1.

             1.1.0:系统描述信息

             1.3.0:监控时间

             1.4.0:系统联系人信息

             1.5.0:主机名

             1.7.0:主机提供的服务

             


             2.1.0:网络接口数目

             2.2.1.2 :网络接口的描述信息

             2.2.1.3:网络接口类型snmp

            ......

     


JMX:监控 JMX本身就可连接套结字

 tomcat主机设置

   监控tomcat

   /etc/sysconfig/tomcat 添加

CATALINA_OPTS=

 

 zabbix-java-gateway主机设置:

  安装 zabbix-java-gateway程序包 启动服务



zabbix-server端的设置:

   JavaGateway=172.17.0.x

   JavaGateway=10052

  StartJavaPollers=5


zabbix proxy的配置


1.node2:

yum install java-1.8.0-openjdk-devel    tomcat-webapps tomcat-admin-webapps tomcat-docs-webapp 


vim /etc/sysconfig/tomcat

CATALINA_OPTS=" -Djava.rmi.server.hostname=172.17.0.172 -Djavax.management.builder.initial= -Dco.sun.management.jmxremote  

=true   -Dcom.sun.management.jmxtemote.port=12345 -Dcom.sun.managemen.jmxremote.ssl=false  -Dcom.sun.management.jmxremote.authenticate=false"


systemctl start tomcat.service


ss -tnl



2.server:

 yum install zabbix-java-gateway

cd /etc/zabbix

vim zabbix_java_gateway.conf

systemctl restart zabbix-java-gateway.start


vim zabbix_server.conf

JavaGateway=172.17.0.159

JavaGatewayPort=10052

StartJavaPollers=5

systemctl restart zabbix-server.service

systemctl status zabbix-server.service




zabbix-proxy(代理):分布监控 

1.新的虚拟机

ntpdate 172.17.0.x 同步时间

hostnamectl set-hostname zbxproxxy.magedu.com 修改主机名

exec bash刷新


yum install mariadb

vim /etc/my.cnf.d/server.cnf

skip_name_resolve =ON

innodb_file_per_table = ON

innodb_buffer_pool_size= 256M

log-bin =master-log

systemctl start mariadb.service


mysql

>create database zbxproxydb character set 'utf8';

>GRANT ALL ON zbxproxydb.* TO 'zbxproxyuser'@'172.17.0.%' IDENTFIED BY 'zbxproxypass'%;授权

>flush privileges; 刷新权限


node1:

scp zabbix-release-3.4-....noarch.rpm root@172.17.0.x/root

rpm -ivh zabbix-re.....


yum install zabbix-proxy

yum install  zabbix-proxy-mysql zabbix-get zabbix-aget zabbix-sender

cd /etc/zabbix

rpm -ql zabbix-proxy-mysql

cp /usr/share/doc/zabbix-proxy-mysql-3-4.3/schema-sql.gz .

ls

zgip -d schema.sql.gz


mysql -uzbxproxyuser -h172.17.0.x -pzbxproxypass zbxproxydb < schema.sql


mysql

>use zbxproxdb;

>show tables;

>exit

cd /etc/zabbix

cp zabbix_proxy.conf{,.bak}

vim zabbix_proxy.conf

 server=172.17.0.x , 代理ip

 ServerPort=10051

 Hostname=zbxproxy.magedu.com

 listenport=10051

 EnbleRemoteCommands=1

 LogRemoteCommands=1

 DBHost=172.17.0.x

 DBName=zbxproxydb

 DBUser=zbxproxyuser

 DBPassword=zbxproxypass

 ConfigFrequency=30

 DataSenderFrequency=1

 StartPoller=5

 StartTrappers=5

 StartPingers=1

 StratHTTPPollers=1

 ServerActive=172.17.0.70,172.18.0.69

systemctl start zabbix-proxy.service

systemctl status zabbix-proxy.service


Administration

proxies

 creat

 zbxproxy.magedu.com/ ip地址

 

 add


configuration

hosts

 creat

 node2.magedu.com

 node2

 snmp hosts

 172.17.0.x   node2.magedu.com

zabbix.magedu.com


 creat item

//vim /etc/hosts

//scp /etc/hosts nodex:/etc


zabix站点服务:


 node1为例

 yum install nginx

  vim /etc/nginx/nginx.conf

  server段进行配置

   location /stub_status {

     stub_status on;

     access_log off;

 //    allow 127.0.0.1;

 //   deny all;

}

nginx -s reload 

systemctl start nginx

 cd  /etc/zabbix

  ls

  mkdir -pv /srv/zabbix/libexec

  cd /srv/zabbix/libexec

  wget  nginx.sh (浏览器上)

  cat nginx.sh

  chmod +x nginx.sh

  cd /etc/zabbix/zabbix_agentd.d

  wget  userparameter ngnx.conf (网上下载)

  

  物理机上安装:

  wget zbx_export_templates.xml(获取模版)

configuration

 templates

 creat

 选择文件zbx prox

 import

 tempates

  

  server:

  zabbix_get -s 172.17.0.x -p 10050 -k "nginx.status[active]"

 压测一下:

 ab -n 10000 -c 100 http://172.17.0.x/index.html


  

 

调优:

  Database

     历史数据不要保存太长时长

     尽量让数据缓存在数据库服务器的内存中

     触发器表达式:减少使用min() max()avg() 尽量使用last() nodata()

     数据收集:polling较慢(减少使用SNMP/agent);尽量使用trapptrapping(agent (active));

     数据类型:文本型数据处理速度较慢   尽量少收集类型为text或string 类型的数据 多使用类型为numeric的;


   

zabbix服务进程:


 (1)服务器组件的数量

    alerter discoverer  escalator http poller hourekeeper icmp pingerr ipmi pooller trapper

    configration  syncer....

     

     

 




 (2)设定合理的缓存大小



 

 

  (3)数据库优化



其他解决方案:

        grafana:展示

        collectd:收集

        influxdb:存储

  grafana+ collectd+influxdb

    prometheus:

        exporter:收集

        alertmanager

       grafana:展示

   openfalcon


Maintenance 服务维护,系统维护