logstash详解（一）

转载

运维胡一刀 2022-11-21 14:47:26 博主文章分类：ELK

文章标签 logstash 文章分类 运维

Logstash基本语法组成 Logstash配置文件有如下三部分组成，其中input、output部分是必须配置，filter部分是可选配置，而filter就是过滤器插件，可以在这部分实现各种日志过滤功能。

input {
输入插件
}
filter {
过滤匹配插件
}
output {
输出插件
}

下面我们将依次进行介绍。

Logstash输入插件(Input) Logstash的输入插件主要用来接收数据，Logstash支持多种数据源，常见的有读取文件、标准输入、读取syslog日志、读取网络数据等，这里分别介绍下每种接收数据源的配置方法。

2.1. 读取文件(File)

logstash使用一个名为filewatch的ruby gem库来监听文件变化,并通过一个叫.sincedb的数据库文件来记录被监听的日志文件的读取进度（时间戳），这个sincedb数据文件的默认路径在 <path.data>/plugins/inputs/file下面，文件名类似于.sincedb_452905a167cf4509fd08acb964fdb20c，而<path.data>表示logstash插件存储目录，默认是LOGSTASH_HOME/data。

看下面一个事件配置文件：

input {
    file {
        path => ["/var/log/messages"]
        type => "system"
        start_position => "beginning"
    }
}
output {
    stdout{
        codec=>rubydebug    
    }
}

这个配置是监听并接收本机的/var/log/messages文件内容，start_position表示按时间戳记录的地方开始读取，如果没有时间戳则从头开始读取，有点类似cat命令，默认情况下，logstash会从文件的结束位置开始读取数据，也就是说logstash进程会以类似tail -f命令的形式逐行获取数据。type用来标记事件类型,通常会在输入区域通过type标记事件类型。

假定/var/log/messages中输入的内容为如下信息：

Feb 6 17:20:11 logstashserver yum[15667]: Installed: vsftpd-2.2.2-24.el6.x86_64

那么经过logstash后，输出内容为如下JSON格式：

{
"@version" => "1",
"host" => " logstashserver",
"path" => "/var/log/messages",
"@timestamp" => 2018-02-02T02:02:36.361Z,
"message" => "Feb 6 17:20:11 logstashserver yum[15667]: Installed: vsftpd-2.2.2-24.el6.x86_64",
"type" => "system"
}

从输出可以看出，除了增加了前四个字段外，message字段是真正的输出内容，将输入信息原样输出，最后还有一个type字段，这是在input中定义的一个事件类型，也被原样输出了，在后面的过滤插件中会用到这个type字段。

2.2. 标准输入(Stdin)

stdin是从标准输入获取信息，关于stdin的使用，前面章节已经做过了一些简单的介绍，这里再看一个稍微复杂一点的例子，下面是一个关于stdin的事件配置文件：

input{
    stdin{
        add_field=>{"key"=>"iivey"}
        tags=>["add1"]
        type=>"test1"
    }
}
output {
    stdout{
        codec=>rubydebug    
    }
}

如果输入"hello world",可以在终端看到如下输出信息：

{
    "@timestamp" => 2018-02-05T10:46:38.211Z,
      "@version" => "1",
          "host" => "logstashserver",
       "message" => "hello world",
          "type" => "test1",
           "key" => "iivey",
          "tags" => [
        [0] "add1"
    ]
}

type和tags是logstash的两个特殊字段, type一般会放在input中标记事件类型, tags主要用于在事件中增加标签，以便在后续的处理流程中使用，主要用于filter或output阶段。

2.3. 读取 Syslog日志

syslog是linux下一个功能强大的系统日志收集系统，它的升级版本有rsyslog和syslog-ng，在主流的Linux发行版centos6.x/7.x中，默认是rsyslog，升级版本都涵盖sysLog的常用功能，不过在功能和性能上更为出色。rsyslog日志收集系统既可以记录信息在本地文件中，也可以通过网络发送到接收的rsyslog服务器。本节介绍下如何将rsyslog收集到的日志信息发送到logstash中，这里以centos7.5为例，需要做如下两个步骤的操作：

首先，在需要收集日志的服务器上找到rsyslog的配置文件/etc/rsyslog.conf,添加如下内容：

*.*     @@172.16.213.120:5514

其中，172.16.213.120是logstash服务器的地址。5514是logstash启动的监听端口。接着，重启rsyslog服务：

[root@kafkazk1 logstash]# systemctl  restart rsyslog

然后，在logstash服务器上创建一个事件配置文件，内容如下：

input {
  syslog {
    port => "5514"
  }
}

output {
    stdout{
        codec=>rubydebug    
    }
}

此时, kafkazk1主机上的日志信息都会到logstash中来, 假定输入的内容为如下信息：

Feb 5 17:42:26 kafkazk1 systemd: Stopped The nginx HTTP and reverse proxy server.

那么经过logstash后，输出内容为如下JSON格式：

{
          "severity" => 6,
        "@timestamp" => 2018-02-05T09:42:26.000Z,
          "@version" => "1",
              "host" => "172.16.213.51",
           "program" => "systemd",
           "message" => "Stopped The nginx HTTP and reverse proxy server.\n",
          "priority" => 30,
         "logsource" => "kafkazk1",
          "facility" => 3,
    "severity_label" => "Informational",
         "timestamp" => "Feb  5 17:42:26",
    "facility_label" => "system"
}

从JSON格式的输出可以看到增加了几个字段，并且输入的信息经过LogStash后被自动切割成多个字段了，这其实就是下面将要讲到的filter的功能。很多时候，我们为了能更详细的分析日志信息，需要将输入的日志分成多个字段，然后通过不同的字段维度进行多重分析。

在数据量较大的时候，LogStash读取syslog日志会存在很大性能瓶颈，因而如果遇到大数据量场景，建议使用"LogStash::Inputs::TCP"和"LogStash::Filters::Grok"配合实现同样的syslog功能！

2.4. 读取TCP网络数据

下面的事件配置文件就是通过"LogStash::Inputs::TCP"和"LogStash::Filters::Grok"配合实现syslog功能的例子，这里使用了logstash的TCP/UDP插件读取网络数据：

input {
  tcp {
    port => "5514"
  }
}

filter {
  grok {
    match => { "message" => "%{SYSLOGLINE}" }
  }
}

output {
    stdout{
        codec=>rubydebug
    }
}

其中，5514端口是logstash启动的tcp监听端口。注意这里用到了日志过滤"LogStash::Filters::Grok"功能，下面马上会介绍到。

"LogStash::Inputs::TCP"最常见的用法就是结合nc命令导入旧数据。在启动logstash进程后，在另一个终端运行如下命令即可导入旧数据：

[root@kafkazk1 app]# nc 172.16.213.120 5514 < /var/log/secure 通过这种方式，就把/var/log/secure的内容全部导入到了logstash中，当nc命令结束时，数据也就导入完成了。

Logstash编码插件(Codec) 在前面介绍的例子中，其实我们就已经用过编码插件codec了，也就是这个rubydebug，它就是一种codec，虽然它一般只会用在stdout插件中，作为配置测试或者调试的工具。

编码插件(Codec)可以在logstash输入或输出时处理不同类型的数据，同时，还可以更好更方便的与其它自定义格式的数据产品共存，比如fluent、netflow、collectd等通用数据格式的其它产品。因此，Logstash不只是一个input-->filter-->output的数据流，而是一个input-->decode-->filter-->encode-->output的数据流。

Codec支持的编码格式常见的有plain、json、json_lines等。下面依次介绍。

3.1. codec插件之plain

plain是一个空的解析器，它可以让用户自己指定格式，也就是说输入是什么格式，输出就是什么格式。下面是一个包含plain编码的事件配置文件：

input{
    stdin {
    }
}
output{
    stdout {
         codec => "plain"
        }
}

在启动logstash进程后，输入什么格式的数据，都会原样输出，这里不再过多说明。

3.2. codec插件之json、json_lines

如果发送给logstash的数据内容为json格式,可以在input字段加入codec=>json来进行解析，这样就可以根据具体内容生成字段，方便分析和储存。如果想让logstash输出为json格式，可以在output字段加入codec=>json，下面是一个包含json编码的事件配置文件：

input {
    stdin {
        }
    }
output {
    stdout {
        codec => json
        }
}

同理，在启动logstash进程后，如果输入“hello world”，那么输出信息为：

{"@version":"1","host":"logstashserver","@timestamp":"2018-02-07T04:14:51.096Z","message":"hello world"}

这就是json格式的输出，可以看出，json每个字段是key:values格式，多个字段之间通过逗号分隔。有时候，如果json文件比较长，需要换行的话，那么就要用json_lines编码格式了。

上一篇：Windows下使用virtualenv创建python虚拟环境

下一篇：logstash详解（二）

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

logstash详解（一）

logstash详解（一）

51CTO博客