- Logstash基本语法组成 Logstash配置文件有如下三部分组成,其中input、output部分是必须配置,filter部分是可选配置,而filter就是过滤器插件,可以在这部分实现各种日志过滤功能。
下面我们将依次进行介绍。
- Logstash输入插件(Input) Logstash的输入插件主要用来接收数据,Logstash支持多种数据源,常见的有读取文件、标准输入、读取syslog日志、读取网络数据等,这里分别介绍下每种接收数据源的配置方法。
2.1. 读取文件(File)
logstash使用一个名为filewatch的ruby gem库来监听文件变化,并通过一个叫.sincedb的数据库文件来记录被监听的日志文件的读取进度(时间戳),这个sincedb数据文件的默认路径在 <path.data>/plugins/inputs/file下面,文件名类似于.sincedb_452905a167cf4509fd08acb964fdb20c,而<path.data>表示logstash插件存储目录,默认是LOGSTASH_HOME/data。
看下面一个事件配置文件:
这个配置是监听并接收本机的/var/log/messages文件内容,start_position表示按时间戳记录的地方开始读取,如果没有时间戳则从头开始读取,有点类似cat命令,默认情况下,logstash会从文件的结束位置开始读取数据,也就是说logstash进程会以类似tail -f命令的形式逐行获取数据。type用来标记事件类型,通常会在输入区域通过type标记事件类型。
假定/var/log/messages中输入的内容为如下信息:
Feb 6 17:20:11 logstashserver yum[15667]: Installed: vsftpd-2.2.2-24.el6.x86_64
那么经过logstash后,输出内容为如下JSON格式:
从输出可以看出,除了增加了前四个字段外,message字段是真正的输出内容,将输入信息原样输出,最后还有一个type字段,这是在input中定义的一个事件类型,也被原样输出了,在后面的过滤插件中会用到这个type字段。
2.2. 标准输入(Stdin)
stdin是从标准输入获取信息,关于stdin的使用,前面章节已经做过了一些简单的介绍,这里再看一个稍微复杂一点的例子,下面是一个关于stdin的事件配置文件:
如果输入"hello world",可以在终端看到如下输出信息:
type和tags是logstash的两个特殊字段, type一般会放在input中标记事件类型, tags主要用于在事件中增加标签,以便在后续的处理流程中使用,主要用于filter或output阶段。
2.3. 读取 Syslog日志
syslog是linux下一个功能强大的系统日志收集系统,它的升级版本有rsyslog和syslog-ng,在主流的Linux发行版centos6.x/7.x中,默认是rsyslog,升级版本都涵盖sysLog的常用功能,不过在功能和性能上更为出色。rsyslog日志收集系统既可以记录信息在本地文件中,也可以通过网络发送到接收的rsyslog服务器。本节介绍下如何将rsyslog收集到的日志信息发送到logstash中,这里以centos7.5为例,需要做如下两个步骤的操作:
首先,在需要收集日志的服务器上找到rsyslog的配置文件/etc/rsyslog.conf,添加如下内容:
其中,172.16.213.120是logstash服务器的地址。5514是logstash启动的监听端口。 接着,重启rsyslog服务:
然后,在logstash服务器上创建一个事件配置文件,内容如下:
此时, kafkazk1主机上的日志信息都会到logstash中来, 假定输入的内容为如下信息:
Feb 5 17:42:26 kafkazk1 systemd: Stopped The nginx HTTP and reverse proxy server.
那么经过logstash后,输出内容为如下JSON格式:
从JSON格式的输出可以看到增加了几个字段,并且输入的信息经过LogStash后被自动切割成多个字段了,这其实就是下面将要讲到的filter的功能。很多时候,我们为了能更详细的分析日志信息,需要将输入的日志分成多个字段,然后通过不同的字段维度进行多重分析。
在数据量较大的时候,LogStash读取syslog日志会存在很大性能瓶颈,因而如果遇到大数据量场景,建议使用"LogStash::Inputs::TCP"和"LogStash::Filters::Grok"配合实现同样的syslog功能!
2.4. 读取TCP网络数据
下面的事件配置文件就是通过"LogStash::Inputs::TCP"和"LogStash::Filters::Grok"配合实现syslog功能的例子,这里使用了logstash的TCP/UDP插件读取网络数据:
其中,5514端口是logstash启动的tcp监听端口。注意这里用到了日志过滤"LogStash::Filters::Grok"功能,下面马上会介绍到。
"LogStash::Inputs::TCP"最常见的用法就是结合nc命令导入旧数据。在启动logstash进程后,在另一个终端运行如下命令即可导入旧数据:
[root@kafkazk1 app]# nc 172.16.213.120 5514 < /var/log/secure 通过这种方式,就把/var/log/secure的内容全部导入到了logstash中,当nc命令结束时,数据也就导入完成了。
- Logstash编码插件(Codec) 在前面介绍的例子中,其实我们就已经用过编码插件codec了,也就是这个rubydebug,它就是一种codec,虽然它一般只会用在stdout插件中,作为配置测试或者调试的工具。
编码插件(Codec)可以在logstash输入或输出时处理不同类型的数据,同时,还可以更好更方便的与其它自定义格式的数据产品共存,比如fluent、netflow、collectd等通用数据格式的其它产品。因此,Logstash不只是一个input-->filter-->output的数据流,而是一个input-->decode-->filter-->encode-->output的数据流。
Codec支持的编码格式常见的有plain、json、json_lines等。下面依次介绍。
3.1. codec插件之plain
plain是一个空的解析器,它可以让用户自己指定格式,也就是说输入是什么格式,输出就是什么格式。下面是一个包含plain编码的事件配置文件:
在启动logstash进程后,输入什么格式的数据,都会原样输出,这里不再过多说明。
3.2. codec插件之json、json_lines
如果发送给logstash的数据内容为json格式,可以在input字段加入codec=>json来进行解析,这样就可以根据具体内容生成字段,方便分析和储存。如果想让logstash输出为json格式,可以在output字段加入codec=>json,下面是一个包含json编码的事件配置文件:
同理,在启动logstash进程后,如果输入“hello world”,那么输出信息为:
{"@version":"1","host":"logstashserver","@timestamp":"2018-02-07T04:14:51.096Z","message":"hello world"}
这就是json格式的输出,可以看出,json每个字段是key:values格式,多个字段之间通过逗号分隔。有时候,如果json文件比较长,需要换行的话,那么就要用json_lines编码格式了。