淘宝系统信息采集和监控工具tsar


项目地址:https://github.com/alibaba/tsar

 

一.介绍

Tsar是淘宝的系统信息采集和监测工具,主要用来收集服务器的系统信息(如cpu,io,mem,tcp等)以及应用数据(如squid haproxy nginx等),这些信息可以保存在本地磁盘或者发送到Nagios中;

tsar支持实时查看和历史查看,方便了解应用和服务器的信息,且模块化的设计利于通过开发新模块来扩展新的功能,非常方便。

二.安装

方式1:

$ wget -O tsar.zip https://github.com/alibaba/tsar/archive/master.zip --no-check-certificate

$ unzip tsar.zip

$ cd tsar

$ make

# make install

方式2:

GitHub方式 (以前没有试过,所以这次使用这种方式)

这种方法需要安装Git,下面就开始源码安装Git(如果不想这么麻烦可以直接yum install git)

1.下载Git

下载地址:https://www.kernel.org/pub/software/scm/git/

2.编译安装

[root@node1 ~]#  tar xf git-2.10.0.tar.gz -C /usr/local/src/
[root@node1 ~]#  cd /usr/local/src/git-2.10.0/
[root@node1 ~]#  ./configure --prefix=/usr/local/application/git
configure时出现错误,因为gcc未安装,直接yum install gcc即可
[root@node1 ~]#   make
make时出现缺少zlib.h错误,直接yum install zlib zlib-devel 即可
[root@node1 ~]#   make install
安装成功后记得要添加Git路径:
export PATH=$PATH:/usr/local/application/git/bin/

 

3.安装Tsar

[root@node1 application]# pwd
/usr/local/application
[root@node1 application]#  git clone git://github.com/kongjian/tsar.git
[root@node1 application]#  cd tsar
[root@node1 tsar]#  make
[root@node1 tsar]#  make install
4.安装后可以看到如下文件
/etc/tsar/tsar.conf   #Tsar的主配置文件
/etc/cron.d/tsar,    #运行Tsar的定时脚本,默认每分钟
/etc/logrotate.d/   #日志滚动脚本,每月回滚一次Tsar的日志文件
/usr/local/tsar/modules    #存放所有的模块库文件

 

三.配置

安装后默认不会显示输出,只需要运行tsar -l 查看是否实时监控

配置文件内容:

[root@node1 tsar]# cat tsar.conf
####debug_level(INFO DEBUG WARN ERROR FATAL)
debug_level ERROR
####[module]
mod_cpu on
mod_mem on
mod_swap on
mod_tcp on
mod_udp on
mod_traffic on
mod_io on
mod_pcsw on
mod_partition on
mod_tcpx on
mod_load on
mod_apache off
mod_lvs off
mod_haproxy off
mod_squid off
mod_nginx off
mod_swift off
mod_swift_code off
mod_swift_domain off
mod_swift_esi off
mod_swift_fwd off
mod_swift_store off
mod_swift_swapdir off
mod_swift_purge off
mod_swift_sys off
mod_swift_tcmalloc off
mod_tmd off
mod_percpu off
mod_tcprt off
mod_proc off pidname
mod_pharos off
mod_tmd4 off
mod_keyserver off
#mod_erpc on /etc/tsar/erpc.conf
####output_interface file,db,nagios
output_interface file
####[output_file] original data to store
output_file_path /var/log/tsar.data
####[output_stdio] these mod will be show as using tsar command
output_stdio_mod mod_swap,mod_partition,mod_cpu,mod_mem,mod_lvs,mod_haproxy,mod_traffic,mod_squid,mod_load,mod_tcp,mod_udp,mod_tcpx,mod_apache,mod_pcsw,mod_io,mod_percpu
####[output_db]
#output_db_mod mod_swap,mod_partition,mod_cpu,mod_mem,mod_traffic,mod_load,mod_tcp,mod_udp,mod_pcsw,mod_io
#output_db_addr console2:56677
####[output_tcp]
#output_tcp_mod mod_swap,mod_cpu
#output_tcp_addr localhost:9666
#output_tcp_merge on
####support include other mod conf
include /etc/tsar/conf.d/*.conf
####The IP address or the host running the NSCA daemon
#server_addr nagios.server.com
####The port on which the daemon is running - default is 5667
#server_port 8086
####The cycle of send alert to nagios
#cycle_time 300
####nsca client program
#send_nsca_cmd /usr/bin/send_nsca
#send_nsca_conf /home/a/conf/amon/send_nsca.conf
####tsar mod alert config file
####threshold servicename.key;w-min;w-max;c-min;cmax;
#threshold cpu.util;N;N;N;N;

可以通过编辑/etc/tsar/tsar.conf文件来配置tsar:

  • 添加模块只需添加一行 mod_modname  on
  • 开启或关闭模块功能使用 mod_modname  on/off
  • 指定模块参数使用 mod_modname on 参数  ,例如mod_erpc on /etc/tsar/erpc.conf
  • output_stdio_mod设定输出到标准I/O的模块(即可以使用tsar命令显示输出的模块)
  • output_interface 指定输出方式,默认为本地文件,可用参数有file  db  nagios
  • output_file_path指定数据存放文件(也可以修改日志回滚脚本/etc/logrotate.d/tsar来实现)

四.tsar用法

不跟参数:查看历史数据,如tsar

--modname:查看指定模块的输出,如下图


-check:显示最后一个警报记录,只用于淘宝内部警报;

-C , --check:显示最后一个收集的数据,如下图


-c , --cron:运行于cron模式,输出数据到文件中,默认文件为/var/log/tsar.data;

-l ,--live:实时显示信息,如下图


-i , --interval:控制时间间隔,在打印历史数据中(不和--live一起使用),单位是分钟,默认显示间隔5分钟;而实时模式(和--live一起使用)下,单位是秒,默认是5秒,如下图


-m , --merge:对有多个数据的展示,进行汇总,如机器上跑了3个squid,可以用 tsar --squid -m的放式进行展示汇总。如下图

-L , --list:显示可用模块,如下图


-n , --ndays:显示过去几天的值,默认为1;

-d , --date:显示指定日期的数据,日期格式为:YYYYMMDD或一个整型值,如下图



-f , --file:指定tsar要读取的tsar.data 文件;

-D , --detail:不转换数据到K M G,如下图



-s , --spec:指定模块的详细字段,如下图

五.补充

1.输出到Mysql

使用这个特性只需在配置文件中添加输出类型output_interface file,db,还要开启相关模块的功能,而且还要设定tsar2db 监听的IP(主机名)和端口

####[output_db]

output_db_mod  mod_cpu,mod_mem,mod_traffic,mod_load,mod_tcp,mod_udp,mod_io

output_db_addr  hostname:56677


项目地址:https://github.com/alibaba/tsar2db



下载地址:https://codeload.github.com/alibaba/tsar2db/zip/master



tsar2db用来收集一个cdn节点内tsar的采集数据,存到mysql数据库,提供给其它应用查询




数据保留最近3个月的,各表字段含义和tsar采集定义相同



从mysql的tsar库中可以看到整个cdn节点tsar采集到的数据



配置tsar向tsar2db传送数据


vi /etc/tsar/tsar.conf
 
 
output_db_addr console2:56677
 
 
将console2替换成tsar2db的hostname

tsar2db的编译依赖mysql-devel,运行依赖于httpd和mysql-server,其中httpd是用来提供cgi环境供查询




mysql可以下载:



mysql:http://vault.centos.org/5.3/updates/x86_64/RPMS/mysql-5.0.77-3.el5.x86_64.rpm



mysql-devel:http://vault.centos.org/5.3/updates/x86_64/RPMS/mysql-devel-5.0.77-3.el5.x86_64.rpm



mysql-server:http://vault.centos.org/5.3/updates/x86_64/RPMS/mysql-server-5.0.77-3.el5.x86_64.rpm



查询时通过cgi接口指定时间和模块,查看具体数据,比如:



[kongjian@console1 cdnlog]$ curl http://localhost:8082/query.cgi
 
 
Error:miss table name.
 
 
Table:load mem cpu tcp squid haproxy lvs switch traffic udp tcpx apache partition swap io pcsw
 
 
Host:cache161.cn20
 
 
Start/End:timestamp or stardtime, 1292472000 or 2010-12-16_12:00:00
 
 
Sample as:query.cgi?table=load&start=1292472000&end=1292472060&host=mmdev2.corp.alimama.com


测试环境:



数据收集端/tsar端:192.168.85.130   node1.liv.com



tsar2db端+Mysql端:192.168.85.131  node2.liv.com




详细配置:



192.168.85.131主机上安装相关包:



[root@node2 ~]# yum install http mysql mysql-devel mysql-server -y
 
 
[root@node2 ~]# wget https://codeload.github.com/alibaba/tsar2db/zip/master
 
 
[root@node2 ~]# unzip tsar2db-master.zip


 



tsar2db怎么都安装不了,查了很多资料,都是让参考tsar2db项目(Github上的介绍的不清楚,我也没搞懂怎么操作),



他也没有亲自测试过,难道数据入库不行么?编译依赖的包我都装了啊,怎么还是不行!



好吧!果然百度搜的文章是一大抄啊,几乎全一样,而用Google搜了一下,还真找到了解决办法,原来tsar2db的安装
不仅需要mysql的一些包,还需要tcp_wrappers  tcp_wrappers-devel这两个包,安装这两个包后,重新编译后就没
问题了;



参考文章:http://xiaofengwu.tumblr.com/post/67420208992/ubuntu1204%E5%AE%89%E8%A3%85tsar2db



安装内容在Makefile文件中,而Makefile文件主要看install部分,install部分主要是编译好之后一些文件的复制以及



数据库表的构建。现在针对我的系统上apache和mysql具体情况来重新配置Makefile文件,配置后的Makefile文件如下,



只针对install部分做了修改:




然后编译安装:


接着配置tsar向tsar2db传送数据:
启动tsar2db服务:


或者

测试:



tsar端(192.168.85.130)收集数据:



tsar2db端(192.168.85.131)查看数据库中是否有数据:





查询时通过CGI接口指定时间,主机和查询模块来查看具体数据:
而且由于注释了Makefile E中的cp src/query.cgi /home/a/share/cgi-bin/query.cgi一行,所以要重新创建

这里提示没有MySQLdb模块,所以还需要进行安装:

[root@node2 tsar2db-master]# yum install  MySQL-python  python-setuptools  -y
 
  
 
然后执行查询测试:

查询格式为:
http://IP或主机名/cgi-bin/query.cgi?table=mem&start=1473566101&end=1474719482&host=node1.liv.com 
 
其中table为查询的表名,start为起始时间(mysql中可以看到),host为主机名(收集数据的主机)
 
 
而且还要注意的是:
 
 
1./usr/lib/cgi-bin/query.cgi文件中
 
 
db = MySQLdb.connect(host="localhost", unix_socket="/var/lib/mysql/mysql.sock", user=db_user, 
 
 
passwd=db_pw, db=db_name)行中的unix_socket一定要是mysql的socket文件的路径(find查一下),记得要修改!
 
 
2.数据库如果设置的有密码,那么/etc/trsa2db/tsar2db.cfg文件要配置
 
 
[root@node2 tsar2db]# cat tsar2db.cfg
 
 
#mysql database hostname or ip
 
 
db_address=localhost
 
 
#database port default is 3306
 
 
db_port=3306
 
 
#mysql user info for tsar
 
 
db_name=tsar
 
 
db_user=root
 
 
db_pw=123456
 
 
#tsar2db port.same as output_nagios_addr at /etc/tsar/tsar.conf
 
 
server_port=56677
 
 
#log for tsar2db.see more@/var/log/message
 
 
debug=0
 
 
pid_file=/var/run/tsar2db.pid



3.httpd.conf文件中要修改如下(默认的cgi-bin目录是/var/www/cgi-bin)



ScriptAlias /cgi-bin/ "/usr/lib/cgi-bin/"
 
  
 
    AllowOverride None
 
 
    Options None
 
 
    Order allow,deny
 
 
    Allow from all




4.两主机做好主机名解析,且最好关闭防火墙和SELinux



配置好之后在浏览器中输入:



http://node2.liv.com/cgi-bin/query.cgi?table=cpu&start=1474716781&end=1474722361&host=node1.liv.com



如果输入正确的URL后页面显示为空白,而数据采集和入库都没问题的话,多看看/usr/lib/cgi-bin/query.cgi文件,
根据该文件内容找出问题所在。我之前遇到过空白页的问题,后来根据文件中的re模块部分,猜测是Python有问题,
升级了Python问题果然解决了!



还有,如果显示空白页,可以依次减少参数,如果http://node2.liv.com/cgi-bin/query.cgi?table=cpu显示的



有一行数据,那么可以确定,是你的参数有错误,根据query.cgi文件修改即可!




2.输出到Nagios

编辑配置文件中的输出类型为output_interface file,nagios

然后指定nagios的IP地址,端口和发送间隔,如

####The IP address or the host running the NSCA daemon
server_addr nagios.server.com
####The port on which the daemon is running - default is 5667
server_port 8086
####The cycle of send alert to nagios
cycle_time 300
由于tsar使用Nagios的被动模式,所以还需要指定nsca库和它的配置文件路径:
####nsca client program
send_nsca_cmd /usr/bin/send_nsca
send_nsca_conf /home/a/conf/amon/send_nsca.conf
然后指定要监控的模块和字段,且指定其有4个阀值:
####tsar mod alert config file
####threshold servicename.key;w-min;w-max;c-min;cmax;
threshold cpu.util;50;60;70;80;

由于没有Nagios环境,所以这里不再测试!