一 简介

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

但是,Lucene只是一个库。想要 使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。

Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。

Elasticsearch的中文网址:Elasticsearch:官方分布式搜索和分析引擎 | Elastic

Apache Lucene™ 项目开发开源搜索软件。该项目发布了一个名为 Lucene™ core 的核心搜索库,以及 PyLucene,一个用于 Lucene 的 Python 绑定。

Lucene Core是一个 Java 库,提供强大的索引和搜索功能,以及拼写检查、命中突出显示和高级分析/标记化功能。该PyLucene 子项目提供了Python绑定Lucene的核心。

1.1正向索引 和倒排索引

正向索引与倒排索引,这是在搜索领域中非常重要的两个名词,正向索引通常用于数据库中,在搜索引擎领域使用的最多的就是倒排索引,我们根据如下两个网页来对这两个概念进行阐述:

html1

<span style="background-color:#f8f8f8 !important"><span style="color:#34495e">我爱我的祖国,我爱编程</span></span>

html2:

<span style="background-color:#f8f8f8 !important"><span style="color:#34495e">我爱编程,我是个快乐的小码农</span></span>

正向索引: 

<span style="background-color:#f8f8f8 !important"><span style="color:#34495e">我 爱 爱我 祖国 我的祖国 编程 爱编程 我爱编程</span></span>
<span style="background-color:#f8f8f8 !important"><span style="color:#34495e">我 我爱 爱 编程 爱编程 我爱编程 快乐 码农 小码农</span></span>

假设我们现在使用正向索引搜索 编程 这个词,那么会到第一句话中去查找是否包含有 编程

倒排索引: 

关键词

文档名


html1,html2,html3


html1,html2

爱我

html1

我爱

html2

祖国

html1

我的祖国

html1

编程

html1,html2

我爱编程

html1,html2

爱编程

html1,html2

快乐

html2

码农

html2

小码农

html2

如果采用倒排索引的方式搜索 编程 这个词,那么会直接找到关键词中查找到 编程正向索引是通过文档去查找单词,反向索引则是通过单词去查找文档。

倒排索引的优点还包括在处理复杂的多关键字查询时,可在倒排表中先完成查询的并、交等逻辑运算,得到结果后再对记录进行存取,这样把对文档的查询转换为地址集合的运算,从而提高查找速度

1.2 elasticsearch 概念以及产品

Elasticsearch中的索引的概念与数据库中索引的概念是完全不一样的,Elasticsearch中索引如果类比到数据库,那就是一个数据库名。

文档在Elasticsearch中就是具体的数据,类比到数据库中那就是一条记录。

2.2 安装elasticsearch kibana logstash

Kibana是世界上最受欢迎的开源日志分析平台ELK Stack中的“K” ,它为用户提供了一个工具,用于在存储于Elasticsearch集群中的日志数据进行检索,可视化和构建仪表板。

Kibana的核心功能是数据查询和分析。使用各种方法,用户可以搜索Elasticsearch中索引的数据,以查找其数据中的特定事件或字符串,以进行根本原因分析和诊断。基于这些查询,用户可以使用Kibana的可视化功能,允许用户使用图表,表格,地理图和其他类型的可视化以各种不同的方式可视化数据。

Logstash是一个开源的服务器端数据处理管道,可以同时从多个数据源获取数据,并对其进行转换,然后将其发送到你最喜欢的“存储”。创建于2009年,于2013年被elasticsearch收购

三 elasticsearch基本概念

3.1 索引、文档、类型

索引

Elasticsearch中的索引有多层的意思:a. 某一类文档的集合就构成了一个索引,类比到数据库就是一个数据库(或者数据库表);b.它还描述了一个动作,就是将某个文档保存在elasticsearch的过程也叫索引;c. 倒排索引。

文档

具体的一条数据,类比到数据库就是一条记录。

开源搜索引擎dogedoge_lucene

 

类型

在7.0之前,一个Index可以创建多个类型,从7.0开始,一个索引只能创建一个类型,也就是_doc

DBMS

Elasticsearch

database

Index

table

type(在7.0之后type为固定值_doc)

Row

Document

Column

Field

Schema

Mapping

SQL

DSL(Descriptor Structure Language)