ELK 环境概述

  日志分析是运维工程师解决系统故障,发现问题的主要手段。Linux 操作系统中日志主要包括系统日志,用户日志,应用程序日志和安全日志。系统运维和开发人员可以通过日志来了解服务器的软硬件信息,检查服务配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷,性能和安全性,从而及时采取响应措施纠正错误。

  默认情况下,日志被分散的储存在各个相应的设备上。如果你管理数十上百台服务器,而你还在使用传统方式依次登录每台机器查阅日志,即繁琐又效率低下。为此,我们可以使用集中化的日志管理工具。例如:开源的 syslog 可将所有服务器上的日志收集汇总,集中管理。

  集中化管理日志后,日志的统计和检索又成为一件比较麻烦的事情,一般我们使用 grep、awk、sed、sort、uniq、wc等 Linux 文本命令实现日志检索和统计,但是对于更高要求的查询、排序和统计等需求,再加上庞大的机器数量,使用这样的方法依然难免有点力不从心。

  开源实时日志分析 ELK 平台能够完美的解决我们上述的问题,ELK 由 Elasticsearch、Logstash 和 Kibana 三个开源工具组成。

官方网站: https://www.elastic.co/cn/

Elasticsearch 是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful 风格接口,多数据源,自动搜索负载等。

Logstash 是一个完全开源的工具,它可以对日志进行收集、过滤,并将其存储,供以后使用(如,搜索)。

Kibana 也是一个开源和免费的工具,Kibana 可以为 Logstash 和 Elasticsearch 提供友好的日志分析 web  界面,可以帮助你汇总、分析和搜索重要数据日志。

ELK 工作原理

  Logstash 收集 AppServer 产生的 Log,并存放到 Elasticsearch 集群中,而 Kibana 则从 ES 集群中查询数据生成图表,再返回给 Browser。简单来说,进行日志处理分析,一般需要经过以下几个步骤:

1、将日志进行集中化管理(beats)

2、将日志格式化(logstash)

3、对格式化后的数据进行索引和存储(elasticsearch)

4、前端数据的展示(Kibana)

Elasticsearch 介绍

Elasticsearch 是一个基于 Lucene 的搜索服务器。它稳定、可靠、快速、而且具有比较好的水平扩展能力,为分布式环境设计、在云计算中被广泛的应用。Elasticsearch 提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口。通过该接口,用户可以通过浏览器 Elasticsearch 通信。Elasticsearch 是用 java 开发的,并作为 Apache 许可条款下的开放源码发布。Wikipedia、Stack、Overflow、GitHub 等都是基于 Elasticsearch 来构建的搜索引擎,具有实时搜索、稳定、可靠、快速、安装使用方便等特点。

Elasticsearch 的基础核心概念:

接近实时(NRT)

  ELasticsearch 是一个搜索速度接近实时的搜索平台,响应速度非常快,这意味着从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是 1 秒)。

集群(cluster)

  一个集群就是由一个或多个节点组织在一起,在所有的节点上存放用户数据,并一起提供索引和搜索功能。其中一个节点为主节点,这个主节点是可以通过选举产生的,并提供跨节点的联合索引和搜索的功能。每个集群都有一个唯一性标示的名称,默认是 ELasticsearch,集群名字很重要,每个节点是基于集群名字加入到其集群中的。因此,确保在不同环境中使用不同的集群名字。一个集群可以只有一个节点,为了具有更好的容错性。强烈建议在配置 Elasticsearch 时,配置成集群模式。

节点(node)

  节点就是一台单一的服务器,是集群的一部分,多个节点组织为一个集群,每个节点都存储数据并参与集群的索引和搜索功能。和集群一样,节点也是通过名字来标识,默认情况下,在节点启动时随机分配的字符名。也可以自己定义。该名字也很重要,在集群中用于识别服务器对应的节点。节点可以通过指定集群名字来加入到集群中。默认情况,每个节点都已经加入到 ELasticsearch 集群。如果集群中有多个节点。它们将会自动组建一个名为 Elasticsearch 的集群。

索引(index)

  类似于关系型数据库中的 “库”。当索引一个文档后,就可以使用 ELasticsearch 搜索到该文档,也可以简单的将索引理解为存储数据的地方,可以方便的进行全文索引。在 index 下面包含存储数据的类型(Type),Type 类似于关系型数据库中的 “表”,用来存放具体数据,而 Type 下面包含文档(Document),文档相当于关系型数据库的 “记录”,一个文档是一个可被索引的基础信息单元。